Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

텍스트 데이터 준비

MATLAB®으로 텍스트 데이터를 가져와 분석을 위해 전처리

Text Analytics Toolbox™에는 기기의 로그 데이터, 뉴스 피드, 설문 조사, 작업자 보고서, 소셜 미디어 같은 각종 소스의 원시 텍스트를 처리할 수 있는 다양한 툴이 들어 있습니다. 이러한 툴을 사용하여 널리 사용되는 형식의 파일에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어 또는 다단어 구문(n-gram)을 추출하고, 텍스트를 숫자형 표현으로 변환하고, 통계 모델을 구축하는 등의 다양한 작업을 수행할 수 있습니다. 시작 방법을 보여주는 예제는 Prepare Text Data for Analysis 항목을 참조하십시오.

Text Analytics Toolbox는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 자세한 내용은 Language Considerations 항목을 참조하십시오.

함수

모두 확장

extractFileTextRead text from PDF, Microsoft Word, HTML, and plain text files
extractHTMLTextHTML에서 텍스트 추출
readPDFFormDataPDF 양식에서 데이터 읽어오기
writeTextDocument텍스트 파일에 문서 쓰기
htmlTreeParsed HTML tree
findElementHTML 트리에서 요소 찾기
getAttributeRead HTML attribute of root node of HTML tree
ismissing값이 없는 HTML 트리 찾기
tokenizedDocumentArray of tokenized documents for text analysis
erasePunctuationErase punctuation from text and documents
eraseTags텍스트에서 HTML 및 XML 태그 지우기
eraseURLs텍스트에서 HTTP 및 HTTPS URL 지우기
removeStopWordsRemove stop words from documents
removeShortWords문서 또는 bag-of-words 모델에서 짧은 단어 제거
removeLongWords문서 또는 bag-of-words 모델에서 긴 단어 제거
removeWordsRemove selected words from documents or bag-of-words model
normalizeWordsStem or lemmatize words
replaceWords문서 내 단어 바꾸기
replaceNgrams문서 내 n-gram 바꾸기
stopWords불용어 목록
decodeHTMLEntitiesHTML 및 XML 엔터티를 문자로 변환
lower문서를 소문자로 변환
upper문서를 대문자로 변환
contextSearch documents for word or n-gram occurrences in context
tokenDetailsDetails of tokens in tokenized document array
addSentenceDetailsAdd sentence numbers to documents
addPartOfSpeechDetailsAdd part-of-speech tags to documents
addLemmaDetails문서에 토큰의 표제어 형태 추가
addLanguageDetailsAdd language identifiers to documents
addEntityDetailsAdd entity tags to documents
addTypeDetails문서에 토큰 유형 세부 정보 추가
splitSentences텍스트를 문장으로 분할
corpusLanguage텍스트의 언어 감지
abbreviations일반 약어 테이블
topLevelDomains최상위 도메인 목록
bagOfWordsBag-of-words model
bagOfNgramsBag-of-n-grams model
addDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가
removeDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거
removeInfrequentWordsbag-of-words 모델에서 개수가 적은 단어 제거
removeInfrequentNgramsRemove infrequently seen n-grams from bag-of-n-grams model
removeNgramsRemove n-grams from bag-of-n-grams model
removeEmptyDocumentsRemove empty documents from tokenized document array, bag-of-words model, or bag-of-n-grams model
topkwordsMost important words in bag-of-words model or LDA topic
topkngramsMost frequent n-grams
encodeEncode documents as matrix of word or n-gram counts
tfidfTerm Frequency–Inverse Document Frequency (tf-idf) matrix
joinCombine multiple bag-of-words or bag-of-n-grams models
correctSpellingCorrect spelling of words
editDistanceFind edit distance between two strings or documents
editDistanceSearcherEdit distance nearest neighbor searcher
knnsearchFind nearest neighbors by edit distance
rangesearchFind nearest neighbors by edit distance range
splitGraphemes문자열을 문자소로 분할
docfun문서의 단어에 함수 적용
plusAppend documents
replace문서 내 부분문자열 바꾸기
regexprepReplace text in words of documents using regular expression
doclength문서 배열에 포함된 문서의 길이
doc2cell문서를 string형 벡터로 구성된 셀형 배열로 변환
joinWords단어를 결합하여 문서를 문자열로 변환
string스칼라 문서를 string형 벡터로 변환

도움말 항목

가져오기

Extract Text Data from Files

This example shows how to extract the text data from text, HTML, Microsoft® Word, PDF, CSV, and Microsoft Excel® files and import it into MATLAB® for analysis.

HTML을 구문 분석하고 텍스트 내용 추출하기

이 예제에서는 HTML 코드를 구문 분석하고 특정 요소에서 텍스트 내용을 추출하는 방법을 보여줍니다.

텍스트 분석을 위한 데이터 세트

다양한 텍스트 분석 작업에 사용할 수 있는 데이터 세트에 대해 알아봅니다.

전처리

Prepare Text Data for Analysis

This example shows how to create a function which cleans and preprocesses text data for analysis.

이모지가 포함된 텍스트 데이터 분석하기

이 예제에서는 이모지가 포함된 텍스트 데이터를 분석하는 방법을 보여줍니다.

문서의 철자 교정하기

이 예제에서는 Hunspell을 사용하여 문서의 철자를 교정하는 방법을 보여줍니다.

철자 교정을 위한 확장 사전 만들기

이 예제에서는 철자 교정을 위한 Hunspell 확장 사전을 만드는 방법을 보여줍니다.

편집 거리 탐색기를 사용하여 사용자 지정 철자 교정 함수 만들기

이 예제에서는 편집 거리 탐색기와 알려진 단어로 구성된 단어집을 사용하여 철자를 교정하는 방법을 보여줍니다.

언어 지원

Language Considerations

Information on using Text Analytics Toolbox features for other languages.

Japanese Language Support

Information on Japanese support in Text Analytics Toolbox.

Analyze Japanese Text Data

This example shows how to import, prepare, and analyze Japanese text data using a topic model.

German Language Support

Information on German support in Text Analytics Toolbox.

Analyze German Text Data

This example shows how to import, prepare, and analyze German text data using a topic model.

추천 예제