Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

텍스트 데이터 준비

MATLAB®으로 텍스트 데이터를 가져와 분석을 위해 전처리

Text Analytics Toolbox™에는 기기의 로그 데이터, 뉴스 피드, 설문 조사, 작업자 보고서, 소셜 미디어 같은 각종 소스의 원시 텍스트를 처리할 수 있는 다양한 툴이 들어 있습니다. 이러한 툴을 사용하여 널리 사용되는 형식의 파일에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어 또는 다단어 구문(n-gram)을 추출하고, 텍스트를 숫자형 표현으로 변환하고, 통계 모델을 구축하는 등의 다양한 작업을 수행할 수 있습니다. 시작 방법을 보여주는 예제는 분석할 텍스트 데이터 준비하기 항목을 참조하십시오.

Text Analytics Toolbox는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 자세한 내용은 언어 고려 사항 항목을 참조하십시오.

함수

모두 확장

extractFileTextPDF, Microsoft Word, HTML 및 일반 텍스트 파일에서 텍스트 읽어오기
extractHTMLTextHTML에서 텍스트 추출
readPDFFormDataPDF 양식에서 데이터 읽어오기
writeTextDocument텍스트 파일에 문서 쓰기
htmlTree구문 분석된 HTML 트리
findElementHTML 트리에서 요소 찾기
getAttributeHTML 트리의 루트 노드의 HTML 특성 읽어오기
ismissing값이 없는 HTML 트리 찾기
stringConvert parsed HTML tree to string
tokenizedDocument텍스트 분석에 사용되는 토큰화된 문서로 구성된 배열
erasePunctuation텍스트 및 문서에서 문장 부호 지우기
eraseTags텍스트에서 HTML 및 XML 태그 지우기
eraseURLs텍스트에서 HTTP 및 HTTPS URL 지우기
removeStopWords문서에서 불용어 제거
removeShortWords문서 또는 bag-of-words 모델에서 짧은 단어 제거
removeLongWords문서 또는 bag-of-words 모델에서 긴 단어 제거
removeWords문서 또는 bag-of-words 모델에서 선택한 단어 제거
normalizeWords단어의 어간 또는 표제어 추출
replaceWords문서 내 단어 바꾸기
replaceNgrams문서 내 n-gram 바꾸기
stopWords불용어 목록
decodeHTMLEntitiesHTML 및 XML 엔터티를 문자로 변환
lower문서를 소문자로 변환
upper문서를 대문자로 변환
context문맥 내의 단어 또는 n-gram이 나오는 경우를 문서에서 검색
tokenDetails토큰화된 문서 배열 내 토큰의 세부 정보
addSentenceDetails문서에 문장 번호 추가
addPartOfSpeechDetails문서에 품사 태그 추가
addLemmaDetails문서에 토큰의 표제어 형태 추가
addLanguageDetails문서에 언어 식별자 추가
addEntityDetails문서에 엔터티 태그 추가
addDependencyDetailsAdd grammatical dependency details to documents
addTypeDetails문서에 토큰 유형 세부 정보 추가
splitSentences텍스트를 문장으로 분할
corpusLanguage텍스트의 언어 감지
abbreviations일반 약어 테이블
topLevelDomains최상위 도메인 목록
bagOfWordsBag-of-words 모델
bagOfNgramsBag-of-n-grams 모델
addDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가
removeDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거
removeInfrequentWordsbag-of-words 모델에서 개수가 적은 단어 제거
removeInfrequentNgramsbag-of-n-grams 모델에서 낮은 빈도로 나오는 n-gram 제거
removeNgramsbag-of-n-grams 모델에서 n-gram 제거
removeEmptyDocuments토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거
topkwordsbag-of-words 모델 또는 LDA 토픽에서 가장 중요한 단어
topkngrams빈도가 가장 높은 n-gram
encode문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩
tfidfTF-IDF(단어 빈도-역 문서 빈도) 행렬
joinCombine multiple bag-of-words or bag-of-n-grams models
correctSpellingCorrect spelling of words
editDistanceFind edit distance between two strings or documents
editDistanceSearcherEdit distance nearest neighbor searcher
knnsearch편집 거리로 최근접이웃 찾기
rangesearchFind nearest neighbors by edit distance range
splitGraphemes문자열을 문자소로 분할
docfun문서의 단어에 함수 적용
containsWordsCheck if word is member of documents
containsNgramsCheck if n-gram is member of documents
containsCheck if pattern is substring in documents
plusAppend documents
replace문서 내 부분문자열 바꾸기
regexprepReplace text in words of documents using regular expression
doclength문서 배열에 포함된 문서의 길이
doc2cell문서를 string형 벡터로 구성된 셀형 배열로 변환
joinWords단어를 결합하여 문서를 문자열로 변환
string스칼라 문서를 string형 벡터로 변환
textanalytics.unicode.nfcUnicode composed normalized form (NFC)
textanalytics.unicode.nfdUnicode decomposed normalized form (NFD)
textanalytics.unicode.nfkcUnicode compatibility composed normalized form (NFKC)
textanalytics.unicode.nfkdUnicode compatibility decomposed normalized form (NFKD)
textanalytics.unicode.UTF32유니코드 UTF-32 문자열 표현
characterCategoriesUnicode character categories
hexUTF-32 표현을 16진수 값으로 변환
stringUTF-32 표현을 string형으로 변환하기

도움말 항목

가져오기

전처리

언어 지원