언어 고려 사항
Text Analytics Toolbox™는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 이 테이블에서는 다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법을 설명합니다.
기능 | 언어 고려 사항 | 해결책 |
---|---|---|
토큰화 |
| 다른 언어에도 자세한 내용은 |
불용어 제거 |
| 다른 언어에서 불용어를 제거하려면 |
문장 검출 |
| 다른 언어에서는 문장 검출을 위한 자체 약어 목록을 지정해야 할 수 있습니다. 이 작업을 수행하려면 자세한 내용은 |
워드 클라우드 | string형 입력값의 경우 | 다른 언어에서는 텍스트 데이터를 전처리하고
자세한 내용은 |
단어 임베딩 |
| 영어 이외의 텍스트가 포함된 파일의 경우 사전 토큰화된 텍스트에서 자세한 내용은 |
키워드 추출 |
|
다른 언어에서는 자세한 내용은 |
|
다른 언어에서는 자세한 내용은 |
언어에 독립적인 기능
단어 및 N-Gram 개수 세기
bagOfWords
함수와 bagOfNgrams
함수는 언어에 관계없이 tokenizedDocument
입력값을 지원합니다. 데이터가 포함된 tokenizedDocument
배열이 있는 경우 이러한 함수를 사용할 수 있습니다.
모델링 및 예측
fitlda
함수와 fitlsa
함수는 언어에 관계없이 bagOfWords
입력값과 bagOfNgrams
입력값을 지원합니다. 데이터가 포함된 bagOfWords
객체 또는 bagOfNgrams
객체가 있는 경우 이러한 함수를 사용할 수 있습니다.
trainWordEmbedding
함수는 언어에 관계없이 tokenizedDocument
또는 파일 입력값을 지원합니다. 올바른 형식의 데이터가 포함된 tokenizedDocument
배열 또는 파일이 있는 경우 이 함수를 사용할 수 있습니다.
참고 문헌
[1] Unicode Text Segmentation. https://www.unicode.org/reports/tr29/
[2] Boundary Analysis. https://unicode-org.github.io/icu/userguide/boundaryanalysis/
[3] MeCab: Yet Another Part-of-Speech and Morphological Analyzer. https://taku910.github.io/mecab/
참고 항목
stopWords
| removeWords
| normalizeWords
| bagOfWords
| bagOfNgrams
| tokenizedDocument
| fitlda
| fitlsa
| wordcloud
| addSentenceDetails
| addLanguageDetails