한국어 지원

이 항목에서는 한국어 텍스트를 지원하는 Text Analytics Toolbox™ 기능에 대해 설명합니다.

토큰화

tokenizedDocument 함수는 한국어 입력을 자동으로 검출합니다. 또는 tokenizedDocument의 'Language' 옵션을 'ko'로 설정하십시오. 이 옵션은 토큰의 언어 세부 정보를 지정합니다. 토큰의 언어 세부 정보를 보려면 tokenDetails를 사용하십시오. 이러한 언어 세부 정보에 따라 토큰에서 removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails 및 addEntityDetails 함수의 동작이 달라집니다.

토큰화의 MeCab 옵션을 추가로 지정하려면 mecabOptions 객체를 만드십시오. 지정된 MeCab 토큰화 옵션을 사용하여 토큰화하려면 tokenizedDocument의 'TokenizeMethod' 옵션을 사용하십시오.

품사 세부 정보

기본적으로 tokenDetails 함수에는 토큰 세부 정보와 함께 품사 세부 정보가 포함됩니다.

개체명 인식

기본적으로 tokenDetails 함수에는 토큰 세부 정보와 함께 개체 세부 정보가 포함됩니다.

불용어

토큰 언어 세부 정보에 따라 문서에서 불용어를 제거하려면 removeStopWords를 사용하십시오. 한국어 불용어 목록은 stopWords의 'Language' 옵션을 'ko'로 설정하십시오.

표제어 추출

토큰 언어 세부 정보에 따라 토큰의 표제어를 추출하려면 normalizeWords를 사용하고 'Style' 옵션을 'lemma'로 설정합니다.

언어에 독립적인 기능

단어 및 N-Gram 개수 세기

bagOfWords 함수와 bagOfNgrams 함수는 언어에 관계없이 tokenizedDocument 입력값을 지원합니다. 데이터가 포함된 tokenizedDocument 배열이 있는 경우 이러한 함수를 사용할 수 있습니다.

모델링 및 예측

fitlda 함수와 fitlsa 함수는 언어에 관계없이 bagOfWords 입력값과 bagOfNgrams 입력값을 지원합니다. 데이터가 포함된 bagOfWords 객체 또는 bagOfNgrams 객체가 있는 경우 이러한 함수를 사용할 수 있습니다.

trainWordEmbedding 함수는 언어에 관계없이 tokenizedDocument 또는 파일 입력값을 지원합니다. 올바른 형식의 데이터가 포함된 tokenizedDocument 배열 또는 파일이 있는 경우 이 함수를 사용할 수 있습니다.

참고 항목

도움말 항목

언어 고려 사항