normalizeWords
단어의 어간 또는 표제어 추출
구문
설명
normalizeWords
를 사용하여 단어를 원형(root form)으로 줄입니다. 영어 단어의 표제어를 추출(사전에 등재된 형태로 줄임)하려면 'Style'
옵션을 'lemma'
로 설정하십시오.
이 함수는 한국어, 영어, 일본어, 독일어 텍스트를 지원합니다.
는 updatedDocuments
= normalizeWords(documents
)documents
에 있는 단어를 원형으로 줄입니다. 영어와 독일어 텍스트의 경우 이 함수는 기본적으로 영어와 독일어 텍스트에 각각 Porter 어간 추출기를 사용하여 단어의 어간을 추출합니다. 한국어와 일본어 텍스트의 경우 이 함수는 기본적으로 MeCab 토큰 추출기를 사용하여 단어의 표제어를 추출합니다.
는 string형 배열 updatedWords
= normalizeWords(words
)words
에 있는 각 단어를 원형으로 줄입니다.
는 단어를 줄이고 단어 언어도 지정합니다.updatedWords
= normalizeWords(words
,'Language',language
)