Main Content

언어 고려 사항

Text Analytics Toolbox™는 한국어, 영어, 일본어, 독일어를 지원합니다. 대부분의 Text Analytics Toolbox 함수는 그 외 다른 언어의 텍스트에서도 작동합니다. 이 테이블에서는 다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법을 설명합니다.

기능언어 고려 사항해결책
토큰화

tokenizedDocument 함수에는 한국어, 영어, 일본어, 독일어만을 위한 내장 규칙이 있습니다. 영어와 독일어 텍스트의 경우 tokenizedDocument'unicode' 토큰화 방법이 Unicode® Standard Annex #29[1] 및 해시태그, URL 같은 복합 토큰을 더욱 잘 검출할 수 있도록 수정된 ICU 토큰 추출기[2]에 기반한 규칙을 사용하여 토큰을 검출합니다. 한국어와 일본어 텍스트의 경우 'mecab' 토큰화 방법이 MeCab 토큰 추출기[3]에 기반한 규칙을 사용하여 토큰을 검출합니다.

다른 언어에도 tokenizedDocument를 사용할 수 있습니다. tokenizedDocument에서 유용한 결과가 나오지 않는 경우 텍스트를 수동으로 토큰화해 보십시오. 수동으로 토큰화된 텍스트에서 tokenizedDocument 배열을 만들려면 'TokenizeMethod' 옵션을 'none'으로 설정하십시오.

자세한 내용은 tokenizedDocument 항목을 참조하십시오.

불용어 제거

stopWords 함수와 removeStopWords 함수는 한국어, 영어, 일본어, 독일어 불용어만 지원합니다.

다른 언어에서 불용어를 제거하려면 removeWords를 사용하여 제거할 불용어를 직접 지정해야 합니다.

문장 검출

addSentenceDetails 함수는 문장 부호와 줄 번호 정보를 기준으로 문장 경계를 검출합니다. 영어와 독일어 텍스트의 경우 이 함수는 함수로 전달된 약어 목록도 사용합니다.

다른 언어에서는 문장 검출을 위한 자체 약어 목록을 지정해야 할 수 있습니다. 이 작업을 수행하려면 addSentenceDetails'Abbreviations' 옵션을 사용하십시오.

자세한 내용은 addSentenceDetails 항목을 참조하십시오.

워드 클라우드

string형 입력값의 경우 wordcloud 함수와 wordCloudCounts 함수는 한국어, 영어, 일본어, 독일어의 토큰화를 사용하고, 불용어 제거 및 단어 정규화를 합니다.

다른 언어에서는 텍스트 데이터를 전처리하고 wordcloud에 고유한 단어와 해당 크기를 지정하는 작업을 수동으로 수행해야 할 수 있습니다.

wordcloud에 단어 크기를 지정하려면 데이터를 고유한 단어와 해당 크기가 포함된 테이블 또는 배열로 입력하십시오.

자세한 내용은 wordcloud 항목을 참조하십시오.

단어 임베딩

trainWordEmbedding 함수에 파일을 입력하려면 단어를 공백으로 구분해야 합니다.

영어 이외의 텍스트가 포함된 파일의 경우 tokenizedDocument 배열을 trainWordEmbedding에 입력해야 할 수 있습니다.

사전 토큰화된 텍스트에서 tokenizedDocument 배열을 만들려면 tokenizedDocument 함수를 사용하고 'TokenizeMethod' 옵션을 'none'으로 설정하십시오.

자세한 내용은 trainWordEmbedding 항목을 참조하십시오.

키워드 추출

rakeKeywords 함수는 한국어, 영어, 일본어, 독일어 텍스트만 지원합니다.

rakeKeywords 함수는 구분자를 사용하여 후보 키워드를 식별하는 방식으로 키워드를 추출합니다. 기본적으로 이 함수는 입력 문서의 언어 세부 정보에 따라 지정되는 언어의 stopWords에 의해 지정되는 문장 부호와 불용어를 구분자로 사용합니다.

다른 언어에서는 DelimitersMergingDelimiters 옵션을 사용하여 적절한 구분자 세트를 지정하십시오.

자세한 내용은 rakeKeywords 항목을 참조하십시오.

textrankKeywords 함수는 한국어, 영어, 일본어, 독일어 텍스트만 지원합니다.

textrankKeywords 함수는 품사 태그를 기준으로 후보 키워드를 식별하여 키워드를 추출합니다. 이 함수는 한국어, 영어, 일본어, 독일어 텍스트만 지원하는 addPartOfSpeechDetails 함수로 지정된 품사 태그를 사용합니다.

다른 언어에서는 rakeKeywords를 대신 사용하고 'Delimiters''MergingDelimiters' 옵션을 사용하여 적절한 구분자 세트를 지정해 보십시오.

자세한 내용은 textrankKeywords 항목을 참조하십시오.

언어에 독립적인 기능

단어 및 N-Gram 개수 세기

bagOfWords 함수와 bagOfNgrams 함수는 언어에 관계없이 tokenizedDocument 입력값을 지원합니다. 데이터가 포함된 tokenizedDocument 배열이 있는 경우 이러한 함수를 사용할 수 있습니다.

모델링 및 예측

fitlda 함수와 fitlsa 함수는 언어에 관계없이 bagOfWords 입력값과 bagOfNgrams 입력값을 지원합니다. 데이터가 포함된 bagOfWords 객체 또는 bagOfNgrams 객체가 있는 경우 이러한 함수를 사용할 수 있습니다.

trainWordEmbedding 함수는 언어에 관계없이 tokenizedDocument 또는 파일 입력값을 지원합니다. 올바른 형식의 데이터가 포함된 tokenizedDocument 배열 또는 파일이 있는 경우 이 함수를 사용할 수 있습니다.

참고 문헌

[1] Unicode Text Segmentation. https://www.unicode.org/reports/tr29/

[3] MeCab: Yet Another Part-of-Speech and Morphological Analyzer. https://taku910.github.io/mecab/

참고 항목

| | | | | | | | | |

관련 항목