Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

텍스트 데이터 준비

MATLAB®으로 텍스트 데이터를 가져와 분석을 위해 전처리

Text Analytics Toolbox™에는 기기의 로그 데이터, 뉴스 피드, 설문 조사, 작업자 보고서, 소셜 미디어 같은 각종 소스의 원시 텍스트를 처리할 수 있는 다양한 툴이 들어 있습니다. 이러한 툴을 사용하여 널리 사용되는 형식의 파일에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어 또는 다단어 구문(n-gram)을 추출하고, 텍스트를 숫자형 표현으로 변환하고, 통계 모델을 구축하는 등의 다양한 작업을 수행할 수 있습니다. 시작 방법을 보여주는 예제는 분석할 텍스트 데이터 준비하기 항목을 참조하십시오.

Text Analytics Toolbox는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 자세한 내용은 언어 고려 사항 항목을 참조하십시오.

함수

모두 확장

extractFileTextPDF, Microsoft Word, HTML 및 일반 텍스트 파일에서 텍스트 읽어오기
extractHTMLTextHTML에서 텍스트 추출
readPDFFormDataPDF 양식에서 데이터 읽어오기
writeTextDocument텍스트 파일에 문서 쓰기
htmlTree구문 분석된 HTML 트리
findElementHTML 트리에서 요소 찾기
getAttributeHTML 트리의 루트 노드의 HTML 특성 읽어오기
ismissing값이 없는 HTML 트리 찾기
stringConvert parsed HTML tree to string
tokenizedDocumentArray of tokenized documents for text analysis
erasePunctuation텍스트 및 문서에서 문장 부호 지우기
eraseTags텍스트에서 HTML 및 XML 태그 지우기
eraseURLs텍스트에서 HTTP 및 HTTPS URL 지우기
removeStopWords문서에서 불용어 제거
removeShortWords문서 또는 bag-of-words 모델에서 짧은 단어 제거
removeLongWords문서 또는 bag-of-words 모델에서 긴 단어 제거
removeWords문서 또는 bag-of-words 모델에서 선택한 단어 제거
normalizeWords단어의 어간 또는 표제어 추출
replaceWords문서 내 단어 바꾸기
replaceNgrams문서 내 n-gram 바꾸기
stopWords불용어 목록
decodeHTMLEntitiesHTML 및 XML 엔터티를 문자로 변환
lower문서를 소문자로 변환
upper문서를 대문자로 변환
contextSearch documents for word or n-gram occurrences in context
tokenDetailsDetails of tokens in tokenized document array
addSentenceDetailsAdd sentence numbers to documents
addPartOfSpeechDetailsAdd part-of-speech tags to documents
addLemmaDetails문서에 토큰의 표제어 형태 추가
addLanguageDetails문서에 언어 식별자 추가
addEntityDetailsAdd entity tags to documents
addTypeDetails문서에 토큰 유형 세부 정보 추가
splitSentences텍스트를 문장으로 분할
corpusLanguage텍스트의 언어 감지
abbreviations일반 약어 테이블
topLevelDomains최상위 도메인 목록
bagOfWordsBag-of-words 모델
bagOfNgramsBag-of-n-grams 모델
addDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가
removeDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거
removeInfrequentWordsbag-of-words 모델에서 개수가 적은 단어 제거
removeInfrequentNgramsbag-of-n-grams 모델에서 낮은 빈도로 나오는 n-gram 제거
removeNgramsbag-of-n-grams 모델에서 n-gram 제거
removeEmptyDocuments토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거
topkwordsMost important words in bag-of-words model or LDA topic
topkngramsMost frequent n-grams
encode문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩
tfidfTerm Frequency–Inverse Document Frequency (tf-idf) matrix
joinCombine multiple bag-of-words or bag-of-n-grams models
correctSpellingCorrect spelling of words
editDistanceFind edit distance between two strings or documents
editDistanceSearcherEdit distance nearest neighbor searcher
knnsearchFind nearest neighbors by edit distance
rangesearchFind nearest neighbors by edit distance range
splitGraphemes문자열을 문자소로 분할
docfun문서의 단어에 함수 적용
plusAppend documents
replace문서 내 부분문자열 바꾸기
regexprepReplace text in words of documents using regular expression
doclength문서 배열에 포함된 문서의 길이
doc2cell문서를 string형 벡터로 구성된 셀형 배열로 변환
joinWords단어를 결합하여 문서를 문자열로 변환
string스칼라 문서를 string형 벡터로 변환
textanalytics.unicode.nfdUnicode decomposed normalized form (NFD)
UTF32Unicode UTF-32 string representation
characterCategoriesUnicode character categories
hexConvert UTF-32 representation to hexadecimal values
stringConvert UTF-32 representation to string

도움말 항목

가져오기

파일에서 텍스트 데이터 추출하기

이 예제에서는 텍스트, HTML, Microsoft® Word, PDF, CSV 및 Microsoft Excel® 파일에서 텍스트 데이터를 추출한 다음 분석을 위해 MATLAB®으로 가져오는 방법을 보여줍니다.

HTML을 구문 분석하고 텍스트 내용 추출하기

이 예제에서는 HTML 코드를 구문 분석하고 특정 요소에서 텍스트 내용을 추출하는 방법을 보여줍니다.

텍스트 분석을 위한 데이터 세트

다양한 텍스트 분석 작업에 사용할 수 있는 데이터 세트에 대해 알아봅니다.

전처리

분석할 텍스트 데이터 준비하기

이 예제에서는 분석할 텍스트 데이터를 정리하고 전처리하는 함수를 만드는 방법을 보여줍니다.

이모지가 포함된 텍스트 데이터 분석하기

이 예제에서는 이모지가 포함된 텍스트 데이터를 분석하는 방법을 보여줍니다.

문서의 철자 교정하기

이 예제에서는 Hunspell을 사용하여 문서의 철자를 교정하는 방법을 보여줍니다.

철자 교정을 위한 확장 사전 만들기

이 예제에서는 철자 교정을 위한 Hunspell 확장 사전을 만드는 방법을 보여줍니다.

편집 거리 탐색기를 사용하여 사용자 지정 철자 교정 함수 만들기

이 예제에서는 편집 거리 탐색기와 알려진 단어로 구성된 단어집을 사용하여 철자를 교정하는 방법을 보여줍니다.

언어 지원

언어 고려 사항

다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법에 대한 정보.

Japanese Language Support

Information on Japanese support in Text Analytics Toolbox.

Analyze Japanese Text Data

This example shows how to import, prepare, and analyze Japanese text data using a topic model.

German Language Support

Information on German support in Text Analytics Toolbox.

Analyze German Text Data

This example shows how to import, prepare, and analyze German text data using a topic model.

추천 예제