Main Content

텍스트 데이터 준비

MATLAB®으로 텍스트 데이터를 가져와 분석을 위해 전처리

Text Analytics Toolbox™에는 기기의 로그 데이터, 뉴스 피드, 설문 조사, 작업자 보고서, 소셜 미디어 같은 각종 소스의 원시 텍스트를 처리할 수 있는 다양한 툴이 들어 있습니다. 이러한 툴을 사용하여 널리 사용되는 형식의 파일에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어 또는 다단어 구문(n-gram)을 추출하고, 텍스트를 숫자형 표현으로 변환하고, 통계 모델을 구축하는 등의 다양한 작업을 수행할 수 있습니다. 시작 방법을 보여주는 예제는 분석할 텍스트 데이터 준비하기 항목을 참조하십시오.

Text Analytics Toolbox는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 자세한 내용은 언어 고려 사항 항목을 참조하십시오.

라이브 편집기 작업

텍스트 데이터 전처리하기Preprocess and clean up text data for analysis (R2023a 이후)

함수

모두 확장

extractFileTextPDF, Microsoft Word, HTML 및 일반 텍스트 파일에서 텍스트 읽어오기
extractHTMLTextHTML에서 텍스트 추출
readPDFFormDataPDF 양식에서 데이터 읽어오기
pdfinfoPDF 파일 정보 (R2023a 이후)
writeTextDocument텍스트 파일에 문서 쓰기
htmlTree구문 분석된 HTML 트리
findElementHTML 트리에서 요소 찾기
getAttributeHTML 트리의 루트 노드의 HTML 특성 읽어오기
ismissing값이 없는 HTML 트리 찾기
string구문 분석된 HTML 트리를 string형으로 변환하기
tokenizedDocument텍스트 분석에 사용되는 토큰화된 문서로 구성된 배열
erasePunctuation텍스트 및 문서에서 문장 부호 지우기
eraseTags텍스트에서 HTML 및 XML 태그 지우기
eraseURLs텍스트에서 HTTP 및 HTTPS URL 지우기
removeStopWords문서에서 불용어 제거
removeShortWords문서 또는 bag-of-words 모델에서 짧은 단어 제거
removeLongWords문서 또는 bag-of-words 모델에서 긴 단어 제거
removeWords문서 또는 bag-of-words 모델에서 선택한 단어 제거
normalizeWords단어의 어간 또는 표제어 추출
replaceWords문서 내 단어 바꾸기
replaceNgrams문서 내 n-gram 바꾸기
splitSentences텍스트를 문장으로 분할
splitParagraphs텍스트를 단락으로 분할 (R2023a 이후)
stopWords불용어 목록
decodeHTMLEntitiesHTML 및 XML 엔터티를 문자로 변환
lower문서를 소문자로 변환
upper문서를 대문자로 변환
context문맥 내의 단어 또는 n-gram이 나오는 경우를 문서에서 검색
tokenDetails토큰화된 문서 배열 내 토큰의 세부 정보
addSentenceDetails문서에 문장 번호 추가
addPartOfSpeechDetails문서에 품사 태그 추가
addLemmaDetails문서에 토큰의 표제어 형태 추가
addLanguageDetails문서에 언어 식별자 추가
addEntityDetails문서에 엔터티 태그 추가
addDependencyDetailsAdd grammatical dependency details to documents (R2022b 이후)
addTypeDetails문서에 토큰 유형 세부 정보 추가
splitSentences텍스트를 문장으로 분할
splitParagraphs텍스트를 단락으로 분할 (R2023a 이후)
corpusLanguage텍스트의 언어 검출
abbreviations일반 약어 테이블
topLevelDomains최상위 도메인 목록
bagOfWordsBag-of-words 모델
bagOfNgramsBag-of-n-grams 모델
addDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가
removeDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거
removeInfrequentWordsbag-of-words 모델에서 개수가 적은 단어 제거
removeInfrequentNgramsbag-of-n-grams 모델에서 낮은 빈도로 나오는 n-gram 제거
removeNgramsbag-of-n-grams 모델에서 n-gram 제거
removeEmptyDocuments토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거
topkwordsbag-of-words 모델 또는 LDA 토픽에서 가장 중요한 단어
topkngrams빈도가 가장 높은 n-gram
encode문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩
tfidfTF-IDF(단어 빈도-역 문서 빈도) 행렬
joinCombine multiple bag-of-words or bag-of-n-grams models
correctSpellingCorrect spelling of words (R2020a 이후)
editDistanceFind edit distance between two strings or documents
editDistanceSearcherEdit distance nearest neighbor searcher
knnsearch편집 거리로 최근접이웃 찾기
rangesearch편집 거리 범위로 최근접이웃 구하기
splitGraphemes문자열을 문자소로 분할
docfun문서의 단어에 함수 적용
containsWords단어가 문서에 포함되었는지 검사 (R2022b 이후)
containsNgramsn-gram이 문서에 포함되었는지 검사 (R2022a 이후)
contains패턴이 문서 내 부분문자열에서 일치하는지 검사 (R2022b 이후)
plus문서 추가
replace문서 내 부분문자열 바꾸기
regexprepReplace text in words of documents using regular expression
doclength문서 배열에 포함된 문서의 길이
doc2cell문서를 string형 벡터로 구성된 셀형 배열로 변환
joinWords단어를 결합하여 문서를 문자열로 변환
string스칼라 문서를 string형 벡터로 변환
textanalytics.unicode.nfcUnicode composed normalized form (NFC) (R2022b 이후)
textanalytics.unicode.nfdUnicode decomposed normalized form (NFD) (R2021a 이후)
textanalytics.unicode.nfkcUnicode compatibility composed normalized form (NFKC) (R2022b 이후)
textanalytics.unicode.nfkdUnicode compatibility decomposed normalized form (NFKD) (R2022b 이후)
textanalytics.unicode.UTF32유니코드 UTF-32 문자열 표현 (R2021a 이후)
characterCategories유니코드 문자 범주 (R2021a 이후)
hexUTF-32 표현을 16진수 값으로 변환 (R2021a 이후)
stringUTF-32 표현을 string형으로 변환하기 (R2021a 이후)

도움말 항목

가져오기

전처리

언어 지원