이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
텍스트 데이터 준비
MATLAB®으로 텍스트 데이터를 가져와 분석을 위해 전처리
Text Analytics Toolbox™에는 기기의 로그 데이터, 뉴스 피드, 설문 조사, 작업자 보고서, 소셜 미디어 같은 각종 소스의 원시 텍스트를 처리할 수 있는 다양한 툴이 들어 있습니다. 이러한 툴을 사용하여 널리 사용되는 형식의 파일에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어 또는 다단어 구문(n-gram)을 추출하고, 텍스트를 숫자형 표현으로 변환하고, 통계 모델을 구축하는 등의 다양한 작업을 수행할 수 있습니다. 시작 방법을 보여주는 예제는 분석할 텍스트 데이터 준비하기 항목을 참조하십시오.
Text Analytics Toolbox는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 자세한 내용은 언어 고려 사항 항목을 참조하십시오.
라이브 편집기 작업
텍스트 데이터 전처리하기 | Preprocess and clean up text data for analysis (R2023a 이후) |
함수
도움말 항목
가져오기
- 파일에서 텍스트 데이터 추출하기
이 예제에서는 텍스트, HTML, Microsoft® Word, PDF, CSV 및 Microsoft Excel® 파일에서 텍스트 데이터를 추출한 다음 분석을 위해 MATLAB®으로 가져오는 방법을 보여줍니다. - HTML을 구문 분석하고 텍스트 내용 추출하기
이 예제에서는 HTML 코드를 구문 분석하고 특정 요소에서 텍스트 내용을 추출하는 방법을 보여줍니다. - 텍스트 분석을 위한 데이터 세트
다양한 텍스트 분석 작업에 사용할 수 있는 데이터 세트에 대해 알아봅니다.
전처리
- Preprocess Text Data in Live Editor
Explore text preprocessing techniques using the Preprocess Text Data Live Editor task. - 분석할 텍스트 데이터 준비하기
이 예제에서는 분석할 텍스트 데이터를 정리하고 전처리하는 함수를 만드는 방법을 보여줍니다. - 이모지가 포함된 텍스트 데이터 분석하기
이 예제에서는 이모지가 포함된 텍스트 데이터를 분석하는 방법을 보여줍니다. - 문서의 철자 교정하기
이 예제에서는 Hunspell을 사용하여 문서의 철자를 교정하는 방법을 보여줍니다. - 철자 교정을 위한 확장 사전 만들기
이 예제에서는 철자 교정을 위한 Hunspell 확장 사전을 만드는 방법을 보여줍니다. - 편집 거리 탐색기를 사용하여 사용자 지정 철자 교정 함수 만들기
이 예제에서는 편집 거리 탐색기와 알려진 단어로 구성된 단어집을 사용하여 철자를 교정하는 방법을 보여줍니다. - Analyze Sentence Structure Using Grammatical Dependency Parsing
This example shows how to extract information from a sentence using grammatical dependency parsing.
언어 지원
- 언어 고려 사항
다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법에 대한 정보. - 일본어 지원
Text Analytics Toolbox의 일본어 지원에 대한 정보. - Analyze Japanese Text Data
This example shows how to import, prepare, and analyze Japanese text data using a topic model. - 독일어 지원
Text Analytics Toolbox의 독일어 지원에 대한 정보. - Analyze German Text Data
This example shows how to import, prepare, and analyze German text data using a topic model.