언어 고려 사항

Text Analytics Toolbox™는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 이 테이블에서는 다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법을 설명합니다.

기능	언어 고려 사항	해결책
토큰화	`tokenizedDocument` 함수에는 한국어, 영어, 일본어, 독일어만을 위한 내장 규칙이 있습니다. 영어와 독일어 텍스트의 경우 `tokenizedDocument`의 `'unicode'` 토큰화 방법이 Unicode^® Standard Annex #29[1] 및 해시태그, URL 같은 복합 토큰을 더욱 잘 검출할 수 있도록 수정된 ICU 토큰 추출기[2]에 기반한 규칙을 사용하여 토큰을 검출합니다. 한국어와 일본어 텍스트의 경우 `'mecab'` 토큰화 방법이 MeCab 토큰 추출기[3]에 기반한 규칙을 사용하여 토큰을 검출합니다.	다른 언어에도 `tokenizedDocument`를 사용할 수 있습니다. `tokenizedDocument`에서 유용한 결과가 나오지 않는 경우 텍스트를 수동으로 토큰화해 보십시오. 수동으로 토큰화된 텍스트에서 `tokenizedDocument` 배열을 만들려면 `'TokenizeMethod'` 옵션을 `'none'`으로 설정하십시오. 자세한 내용은 `tokenizedDocument` 항목을 참조하십시오.
불용어 제거	`stopWords` 함수와 `removeStopWords` 함수는 한국어, 영어, 일본어, 독일어 불용어만 지원합니다.	다른 언어에서 불용어를 제거하려면 `removeWords`를 사용하여 제거할 불용어를 직접 지정해야 합니다.
문장 검출	`addSentenceDetails` 함수는 문장 부호와 줄 번호 정보를 기준으로 문장 경계를 검출합니다. 영어와 독일어 텍스트의 경우 이 함수는 함수로 전달된 약어 목록도 사용합니다.	다른 언어에서는 문장 검출을 위한 자체 약어 목록을 지정해야 할 수 있습니다. 이 작업을 수행하려면 `addSentenceDetails`의 `'Abbreviations'` 옵션을 사용하십시오. 자세한 내용은 `addSentenceDetails` 항목을 참조하십시오.
워드 클라우드	string형 입력값의 경우 `wordcloud` 함수와 `wordCloudCounts` 함수는 한국어, 영어, 일본어, 독일어의 토큰화를 사용하고, 불용어 제거 및 단어 정규화를 합니다.	다른 언어에서는 텍스트 데이터를 전처리하고 `wordcloud`에 고유한 단어와 해당 크기를 지정하는 작업을 수동으로 수행해야 할 수 있습니다. `wordcloud`에 단어 크기를 지정하려면 데이터를 고유한 단어와 해당 크기가 포함된 테이블 또는 배열로 입력하십시오. 자세한 내용은 `wordcloud` 항목을 참조하십시오.
단어 임베딩	`trainWordEmbedding` 함수에 파일을 입력하려면 단어를 공백으로 구분해야 합니다.	영어 이외의 텍스트가 포함된 파일의 경우 `tokenizedDocument` 배열을 `trainWordEmbedding`에 입력해야 할 수 있습니다. 사전 토큰화된 텍스트에서 `tokenizedDocument` 배열을 만들려면 `tokenizedDocument` 함수를 사용하고 `'TokenizeMethod'` 옵션을 `'none'`으로 설정하십시오. 자세한 내용은 `trainWordEmbedding` 항목을 참조하십시오.
키워드 추출	`rakeKeywords` 함수는 한국어, 영어, 일본어, 독일어 텍스트만 지원합니다.	`rakeKeywords` 함수는 구분자를 사용하여 후보 키워드를 식별하는 방식으로 키워드를 추출합니다. 기본적으로 이 함수는 입력 문서의 언어 세부 정보에 따라 지정되는 언어의 `stopWords`에 의해 지정되는 문장 부호와 불용어를 구분자로 사용합니다. 다른 언어에서는 `Delimiters` 및 `MergingDelimiters` 옵션을 사용하여 적절한 구분자 세트를 지정하십시오. 자세한 내용은 `rakeKeywords` 항목을 참조하십시오.
키워드 추출	`textrankKeywords` 함수는 한국어, 영어, 일본어, 독일어 텍스트만 지원합니다.	`textrankKeywords` 함수는 품사 태그를 기준으로 후보 키워드를 식별하여 키워드를 추출합니다. 이 함수는 한국어, 영어, 일본어, 독일어 텍스트만 지원하는 `addPartOfSpeechDetails` 함수로 지정된 품사 태그를 사용합니다. 다른 언어에서는 `rakeKeywords`를 대신 사용하고 `'Delimiters'` 및 `'MergingDelimiters'` 옵션을 사용하여 적절한 구분자 세트를 지정해 보십시오. 자세한 내용은 `textrankKeywords` 항목을 참조하십시오.

언어에 독립적인 기능

단어 및 N-Gram 개수 세기

bagOfWords 함수와 bagOfNgrams 함수는 언어에 관계없이 tokenizedDocument 입력값을 지원합니다. 데이터가 포함된 tokenizedDocument 배열이 있는 경우 이러한 함수를 사용할 수 있습니다.

모델링 및 예측

fitlda 함수와 fitlsa 함수는 언어에 관계없이 bagOfWords 입력값과 bagOfNgrams 입력값을 지원합니다. 데이터가 포함된 bagOfWords 객체 또는 bagOfNgrams 객체가 있는 경우 이러한 함수를 사용할 수 있습니다.

trainWordEmbedding 함수는 언어에 관계없이 tokenizedDocument 또는 파일 입력값을 지원합니다. 올바른 형식의 데이터가 포함된 tokenizedDocument 배열 또는 파일이 있는 경우 이 함수를 사용할 수 있습니다.

참고 문헌

[1] Unicode Text Segmentation. https://www.unicode.org/reports/tr29/

[2] Boundary Analysis. https://unicode-org.github.io/icu/userguide/boundaryanalysis/

[3] MeCab: Yet Another Part-of-Speech and Morphological Analyzer. https://taku910.github.io/mecab/

참고 항목