텍스트 데이터 준비

MATLAB^®으로 텍스트 데이터를 가져와 분석을 위해 전처리

Text Analytics Toolbox™에는 기기의 로그 데이터, 뉴스 피드, 설문 조사, 작업자 보고서, 소셜 미디어 같은 각종 소스의 원시 텍스트를 처리할 수 있는 다양한 툴이 들어 있습니다. 이러한 툴을 사용하여 널리 사용되는 형식의 파일에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어 또는 다단어 구문(n-gram)을 추출하고, 텍스트를 숫자형 표현으로 변환하고, 통계 모델을 구축하는 등의 다양한 작업을 수행할 수 있습니다. 시작 방법을 보여주는 예제는 분석할 텍스트 데이터 준비하기 항목을 참조하십시오.

Text Analytics Toolbox는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 자세한 내용은 언어 고려 사항 항목을 참조하십시오.

라이브 편집기 작업

텍스트 데이터 전처리하기

Preprocess and clean up text data for analysis (R2023a 이후)

함수

모두 확장

가져오기 및 내보내기

`extractFileText`	PDF, Microsoft Word, HTML 및 일반 텍스트 파일에서 텍스트 읽어오기
`extractHTMLText`	HTML에서 텍스트 추출
`readPDFFormData`	PDF 양식에서 데이터 읽어오기
`pdfinfo`	PDF 파일 정보 (R2023a 이후)
`writeTextDocument`	텍스트 파일에 문서 쓰기

HTML 구문 분석

`htmlTree`	구문 분석된 HTML 트리
`findElement`	HTML 트리에서 요소 찾기
`getAttribute`	HTML 트리의 루트 노드의 HTML 특성 읽어오기
`ismissing`	값이 없는 HTML 트리 찾기
`string`	구문 분석된 HTML 트리를 string형으로 변환하기

문서 전처리

`tokenizedDocument`	텍스트 분석에 사용되는 토큰화된 문서로 구성된 배열
`erasePunctuation`	텍스트 및 문서에서 문장 부호 지우기
`eraseTags`	텍스트에서 HTML 및 XML 태그 지우기
`eraseURLs`	텍스트에서 HTTP 및 HTTPS URL 지우기
`removeStopWords`	문서에서 불용어 제거
`removeShortWords`	문서 또는 bag-of-words 모델에서 짧은 단어 제거
`removeLongWords`	문서 또는 bag-of-words 모델에서 긴 단어 제거
`removeWords`	문서 또는 bag-of-words 모델에서 선택한 단어 제거
`normalizeWords`	단어의 어간 또는 표제어 추출
`replaceWords`	문서 내 단어 바꾸기
`replaceNgrams`	문서 내 n-gram 바꾸기
`splitSentences`	텍스트를 문장으로 분할
`splitParagraphs`	텍스트를 단락으로 분할 (R2023a 이후)
`stopWords`	불용어 목록
`decodeHTMLEntities`	HTML 및 XML 엔터티를 문자로 변환
`lower`	문서를 소문자로 변환
`upper`	문서를 대문자로 변환

토큰 세부 정보

`context`	문맥 내의 단어 또는 n-gram이 나오는 경우를 문서에서 검색
`tokenDetails`	토큰화된 문서 배열 내 토큰의 세부 정보
`addSentenceDetails`	문서에 문장 번호 추가
`addPartOfSpeechDetails`	문서에 품사 태그 추가
`addLemmaDetails`	문서에 토큰의 표제어 형태 추가
`addLanguageDetails`	문서에 언어 식별자 추가
`addEntityDetails`	문서에 개체 태그 추가
`addDependencyDetails`	Add grammatical dependency details to documents (R2022b 이후)
`addTypeDetails`	문서에 토큰 유형 세부 정보 추가
`splitSentences`	텍스트를 문장으로 분할
`splitParagraphs`	텍스트를 단락으로 분할 (R2023a 이후)
`corpusLanguage`	텍스트의 언어 검출
`abbreviations`	일반 약어 테이블
`topLevelDomains`	최상위 도메인 목록

텍스트 청크화

`splitTextChunks`	Split documents recursively into text chunks (R2026a 이후)
`splitHTMLSections`	Split HTML document into sections (R2026a 이후)
`splitMarkdownSections`	Split Markdown document into sections (R2026a 이후)
`splitCustomSections`	Split document into custom sections (R2026a 이후)
`joinSimilarTextChunks`	Join semantically similar text chunks (R2026a 이후)
`addTextChunkOverlap`	Create overlapping text chunks (R2026a 이후)
`findTextChunkContext`	Find text chunk context (R2026a 이후)
`formatTextChunks`	Create Markdown-formatted text from text chunks (R2026a 이후)

단어 및 N-Gram 개수 세기

`bagOfWords`	Bag-of-words 모델
`bagOfNgrams`	Bag-of-n-grams 모델
`addDocument`	bag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가
`removeDocument`	bag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거
`removeInfrequentWords`	bag-of-words 모델에서 개수가 적은 단어 제거
`removeInfrequentNgrams`	bag-of-n-grams 모델에서 낮은 빈도로 나오는 n-gram 제거
`removeNgrams`	bag-of-n-grams 모델에서 n-gram 제거
`removeEmptyDocuments`	토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거
`topkwords`	bag-of-words 모델 또는 LDA 토픽에서 가장 중요한 단어
`topkngrams`	빈도가 가장 높은 n-gram
`encode`	문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩
`tfidf`	TF-IDF(단어 빈도-역 문서 빈도) 행렬
`join`	Combine multiple bag-of-words or bag-of-n-grams models

철자 교정 및 편집 거리

`correctSpelling`	Correct spelling of words
`editDistance`	Find edit distance between two strings or documents
`editDistanceSearcher`	Edit distance nearest neighbor searcher
`knnsearch`	편집 거리로 최근접이웃 찾기
`rangesearch`	편집 거리 범위로 최근접이웃 구하기
`splitGraphemes`	문자열을 문자소로 분할

문서 조작 및 변환

`docfun`	문서의 단어에 함수 적용
`containsWords`	단어가 문서에 포함되었는지 검사 (R2022b 이후)
`containsNgrams`	n-gram이 문서에 포함되었는지 검사 (R2022a 이후)
`contains`	패턴이 문서 내 부분문자열에서 일치하는지 검사 (R2022b 이후)
`plus`	문서 추가
`replace`	문서 내 부분문자열 바꾸기
`regexprep`	Replace text in words of documents using regular expression
`doclength`	문서 배열에 포함된 문서의 길이
`doc2cell`	문서를 string형 벡터로 구성된 셀형 배열로 변환
`joinWords`	단어를 결합하여 문서를 문자열로 변환
`string`	스칼라 문서를 string형 벡터로 변환

유니코드

`textanalytics.unicode.nfc`	Unicode composed normalized form (NFC) (R2022b 이후)
`textanalytics.unicode.nfd`	Unicode decomposed normalized form (NFD)
`textanalytics.unicode.nfkc`	Unicode compatibility composed normalized form (NFKC) (R2022b 이후)
`textanalytics.unicode.nfkd`	Unicode compatibility decomposed normalized form (NFKD) (R2022b 이후)
`textanalytics.unicode.UTF32`	유니코드 UTF-32 문자열 표현
`characterCategories`	Unicode 문자 범주
`hex`	UTF-32 표현을 16진수 값으로 변환
`string`	UTF-32 표현을 string형으로 변환하기

도움말 항목

가져오기

파일에서 텍스트 데이터 추출하기
이 예제에서는 텍스트, HTML, Microsoft® Word, PDF, CSV 및 Microsoft Excel® 파일에서 텍스트 데이터를 추출한 다음 분석을 위해 MATLAB®으로 가져오는 방법을 보여줍니다.
HTML을 구문 분석하고 텍스트 내용 추출하기
이 예제에서는 HTML 코드를 구문 분석하고 특정 요소에서 텍스트 내용을 추출하는 방법을 보여줍니다.
텍스트 분석을 위한 데이터 세트
다양한 텍스트 분석 작업에 사용할 수 있는 데이터 세트에 대해 알아봅니다.

전처리

Preprocess Text Data in Live Editor
Explore text preprocessing techniques using the Preprocess Text Data Live Editor task.
분석할 텍스트 데이터 준비하기
이 예제에서는 분석할 텍스트 데이터를 정리하고 전처리하는 함수를 만드는 방법을 보여줍니다.
이모지가 포함된 텍스트 데이터 분석하기
이 예제에서는 이모지가 포함된 텍스트 데이터를 분석하는 방법을 보여줍니다.
문서의 철자 교정하기
이 예제에서는 Hunspell을 사용하여 문서의 철자를 교정하는 방법을 보여줍니다.
철자 교정을 위한 확장 사전 만들기
이 예제에서는 철자 교정을 위한 Hunspell 확장 사전을 만드는 방법을 보여줍니다.
편집 거리 탐색기를 사용하여 사용자 지정 철자 교정 함수 만들기
이 예제에서는 편집 거리 탐색기와 알려진 단어로 구성된 단어집을 사용하여 철자를 교정하는 방법을 보여줍니다.
문법적 종속 관계 구문 분석을 사용하여 문장 구조 분석하기
이 예제에서는 문법적 종속 관계 구문 분석을 사용하여 문장에서 정보를 추출하는 방법을 보여줍니다.
Split Document Into Semantically Meaningful Text Chunks
This example shows how to split a document into semantically meaningful text chunks. (R2026a 이후)

언어 지원

언어 고려 사항
다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법에 대한 정보.
일본어 지원
Text Analytics Toolbox의 일본어 지원에 대한 정보.
일본어 텍스트 데이터 분석하기
이 예제에서는 토픽 모델을 사용하여 일본어 텍스트 데이터를 가져와서 준비하고 분석하는 방법을 보여줍니다.
독일어 지원
Text Analytics Toolbox의 독일어 지원에 대한 정보.
독일어 텍스트 데이터 분석하기
이 예제에서는 토픽 모델을 사용하여 독일어 텍스트 데이터를 가져와서 준비하고 분석하는 방법을 보여줍니다.