주요 콘텐츠

removeStopWords

문서에서 불용어 제거

설명

"a", "and", "to", "the" 같은 단어(불용어라고 함)는 데이터에 잡음을 추가할 수 있습니다. 분석 전에 이 함수를 사용하여 불용어를 제거하십시오.

이 함수는 한국어, 영어, 일본어, 독일어 텍스트를 지원합니다. 다른 언어에서 removeStopWords 함수를 사용하는 방법을 알아보려면 언어 고려 사항 항목을 참조하십시오.

newDocuments = removeStopWords(documents)tokenizedDocument 배열 documents에서 불용어를 제거합니다. 기본적으로 이 함수는 documents의 언어 세부 정보에 따라 stopWords 함수에서 제공된 불용어 목록을 사용하며 대/소문자를 구분하지 않습니다.

사용자 지정 단어 목록을 제거하려면 removeWords 함수를 사용합니다.

예제

newDocuments = removeStopWords(documents,'IgnoreCase',false)stopWords 함수에 의해 지정된 불용어 목록과 대/소문자가 일치하는 불용어를 제거합니다.

removeStopWords 함수는 normalizeWords 함수에 의해 제거되는 정보를 사용하므로 이 함수를 사용하기 전에 removeStopWords 함수를 사용해야 합니다.

예제

모두 축소

문서로 구성된 배열에서 removeStopWords를 사용하여 불용어를 제거합니다. tokenizedDocument 함수는 문서가 영어인 것을 검출하며 따라서 removeStopWords는 영어 불용어를 제거합니다.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)
newDocuments = 
  2×1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

tokenizedDocument를 사용하여 일본어 텍스트를 토큰화합니다. 이 함수는 일본어 텍스트를 자동으로 검출합니다.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

removeStopWords를 사용하여 불용어를 제거합니다. 이 함수는 documents의 언어 세부 정보를 사용하여 어떤 언어의 불용어를 제거할지 결정합니다.

documents = removeStopWords(documents)
documents = 
  3×1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

tokenizedDocument를 사용하여 독일어 텍스트를 토큰화합니다. 이 함수는 독일어 텍스트를 자동으로 검출합니다.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)
documents = 
  2×1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

removeStopWords 함수를 사용하여 불용어를 제거합니다. 이 함수는 문서의 언어 세부 정보를 사용하여 어떤 언어의 불용어를 제거할지 결정합니다.

documents = removeStopWords(documents)
documents = 
  2×1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

출력 인수

모두 축소

출력 문서로, tokenizedDocument 배열로 반환됩니다.

세부 정보

모두 축소

알고리즘

모두 축소

버전 내역

R2018b에 개발됨