한국어 지원
이 항목에서는 한국어 텍스트를 지원하는 Text Analytics Toolbox™ 기능에 대해 설명합니다.
토큰화
tokenizedDocument
함수는 한국어 입력을 자동으로 검출합니다. 또는 tokenizedDocument
의 'Language'
옵션을 'ko'
로 설정하십시오. 이 옵션은 토큰의 언어 세부 정보를 지정합니다. 토큰의 언어 세부 정보를 보려면 tokenDetails
를 사용하십시오. 이러한 언어 세부 정보에 따라 토큰에서 removeStopWords
, addPartOfSpeechDetails
, normalizeWords
, addSentenceDetails
및 addEntityDetails
함수의 동작이 달라집니다.
토큰화의 MeCab 옵션을 추가로 지정하려면 mecabOptions
객체를 만드십시오. 지정된 MeCab 토큰화 옵션을 사용하여 토큰화하려면 tokenizedDocument
의 'TokenizeMethod'
옵션을 사용하십시오.
품사 세부 정보
기본적으로 tokenDetails
함수에는 토큰 세부 정보와 함께 품사 세부 정보가 포함됩니다.
명명된 엔터티 인식
기본적으로 tokenDetails
함수에는 토큰 세부 정보와 함께 엔터티 세부 정보가 포함됩니다.
불용어
토큰 언어 세부 정보에 따라 문서에서 불용어를 제거하려면 removeStopWords
를 사용하십시오. 한국어 불용어 목록은 stopWords
의 'Language'
옵션을 'ko'
로 설정하십시오.
표제어 추출
토큰 언어 세부 정보에 따라 토큰의 표제어를 추출하려면 normalizeWords
를 사용하고 'Style'
옵션을 'lemma'
로 설정합니다.
언어에 독립적인 기능
단어 및 N-Gram 개수 세기
bagOfWords
함수와 bagOfNgrams
함수는 언어에 관계없이 tokenizedDocument
입력값을 지원합니다. 데이터가 포함된 tokenizedDocument
배열이 있는 경우 이러한 함수를 사용할 수 있습니다.
모델링 및 예측
fitlda
함수와 fitlsa
함수는 언어에 관계없이 bagOfWords
입력값과 bagOfNgrams
입력값을 지원합니다. 데이터가 포함된 bagOfWords
객체 또는 bagOfNgrams
객체가 있는 경우 이러한 함수를 사용할 수 있습니다.
trainWordEmbedding
함수는 언어에 관계없이 tokenizedDocument
또는 파일 입력값을 지원합니다. 올바른 형식의 데이터가 포함된 tokenizedDocument
배열 또는 파일이 있는 경우 이 함수를 사용할 수 있습니다.
참고 항목
tokenizedDocument
| removeStopWords
| stopWords
| addPartOfSpeechDetails
| tokenDetails
| normalizeWords
| addLanguageDetails
| addEntityDetails