Main Content

removeStopWords

문서에서 불용어 제거

설명

"a", "and", "to", "the" 같은 단어(불용어라고 함)는 데이터에 잡음을 추가할 수 있습니다. 분석 전에 이 함수를 사용하여 불용어를 제거하십시오.

이 함수는 한국어, 영어, 일본어, 독일어 텍스트를 지원합니다. 다른 언어에서 removeStopWords 함수를 사용하는 방법을 알아보려면 언어 고려 사항 항목을 참조하십시오.

예제

newDocuments = removeStopWords(documents)tokenizedDocument 배열 documents에서 불용어를 제거합니다. 기본적으로 이 함수는 documents의 언어 세부 정보에 따라 stopWords 함수에서 제공된 불용어 목록을 사용하며 대/소문자를 구분하지 않습니다.

사용자 지정 단어 목록을 제거하려면 removeWords 함수를 사용합니다.

newDocuments = removeStopWords(documents,'IgnoreCase',false)stopWords 함수에 의해 지정된 불용어 목록과 대/소문자가 일치하는 불용어를 제거합니다.

removeStopWords 함수는 normalizeWords 함수에 의해 제거되는 정보를 사용하므로 이 함수를 사용하기 전에 removeStopWords 함수를 사용해야 합니다.

예제

모두 축소

문서로 구성된 배열에서 removeStopWords를 사용하여 불용어를 제거합니다. tokenizedDocument 함수는 문서가 영어인 것을 검출하며 따라서 removeStopWords는 영어 불용어를 제거합니다.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

tokenizedDocument를 사용하여 일본어 텍스트를 토큰화합니다. 이 함수는 일본어 텍스트를 자동으로 검출합니다.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

removeStopWords를 사용하여 불용어를 제거합니다. 이 함수는 documents의 언어 세부 정보를 사용하여 어떤 언어의 불용어를 제거할지 결정합니다.

documents = removeStopWords(documents)
documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

tokenizedDocument를 사용하여 독일어 텍스트를 토큰화합니다. 이 함수는 독일어 텍스트를 자동으로 검출합니다.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

removeStopWords 함수를 사용하여 불용어를 제거합니다. 이 함수는 문서의 언어 세부 정보를 사용하여 어떤 언어의 불용어를 제거할지 결정합니다.

documents = removeStopWords(documents)
documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

출력 인수

모두 축소

출력 문서로, tokenizedDocument 배열로 반환됩니다.

세부 정보

모두 축소

언어 고려 사항

stopWords 함수와 removeStopWords 함수는 한국어, 영어, 일본어, 독일어 불용어만 지원합니다.

다른 언어에서 불용어를 제거하려면 removeWords를 사용하여 제거할 불용어를 직접 지정해야 합니다.

알고리즘

모두 축소

언어 세부 정보

tokenizedDocument 객체에는 언어 세부 정보를 포함하여 토큰에 대한 세부 정보가 포함됩니다. 입력 문서의 언어 세부 정보에 따라 removeStopWords의 동작이 달라집니다. tokenizedDocument 함수는 기본적으로 입력 텍스트의 언어를 자동으로 검출합니다. 언어 세부 정보를 수동으로 지정하려면 tokenizedDocumentLanguage 옵션을 사용하십시오. 토큰 세부 정보를 보려면 tokenDetails 함수를 사용하십시오.

버전 내역

R2018b에 개발됨