언어 고려 사항
Text Analytics Toolbox™는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 이 테이블에서는 다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법을 설명합니다.
| 기능 | 언어 고려 사항 | 해결책 |
|---|---|---|
| 토큰화 |
| 다른 언어에도 자세한 내용은 |
| 불용어 제거 |
| 다른 언어에서 불용어를 제거하려면 |
| 문장 검출 |
| 다른 언어에서는 문장 검출을 위한 자체 약어 목록을 지정해야 할 수 있습니다. 이 작업을 수행하려면 자세한 내용은 |
| 워드 클라우드 | string형 입력값의 경우 | 다른 언어에서는 텍스트 데이터를 전처리하고
자세한 내용은 |
| 단어 임베딩 |
| 영어 이외의 텍스트가 포함된 파일의 경우 사전 토큰화된 텍스트에서 자세한 내용은 |
| 키워드 추출 |
|
다른 언어에서는 자세한 내용은 |
|
|
다른 언어에서는 자세한 내용은 |
언어에 독립적인 기능
단어 및 N-Gram 개수 세기
bagOfWords 함수와 bagOfNgrams 함수는 언어에 관계없이 tokenizedDocument 입력값을 지원합니다. 데이터가 포함된 tokenizedDocument 배열이 있는 경우 이러한 함수를 사용할 수 있습니다.
모델링 및 예측
fitlda 함수와 fitlsa 함수는 언어에 관계없이 bagOfWords 입력값과 bagOfNgrams 입력값을 지원합니다. 데이터가 포함된 bagOfWords 객체 또는 bagOfNgrams 객체가 있는 경우 이러한 함수를 사용할 수 있습니다.
trainWordEmbedding 함수는 언어에 관계없이 tokenizedDocument 또는 파일 입력값을 지원합니다. 올바른 형식의 데이터가 포함된 tokenizedDocument 배열 또는 파일이 있는 경우 이 함수를 사용할 수 있습니다.
참고 문헌
[1] Unicode Text Segmentation. https://www.unicode.org/reports/tr29/
[2] Boundary Analysis. https://unicode-org.github.io/icu/userguide/boundaryanalysis/
[3] MeCab: Yet Another Part-of-Speech and Morphological Analyzer. https://taku910.github.io/mecab/
참고 항목
stopWords | removeWords | normalizeWords | bagOfWords | bagOfNgrams | tokenizedDocument | fitlda | fitlsa | wordcloud | addSentenceDetails | addLanguageDetails