Main Content

addLemmaDetails

문서에 토큰의 표제어 형태 추가

설명

addLemmaDetails를 사용하여 문서에 표제어 형태를 추가할 수 있습니다.

이 함수는 한국어, 영어, 일본어 텍스트를 지원합니다.

예제

updatedDocuments = addLemmaDetails(documents)는 표제어 세부 정보를 documents에 추가한 다음 토큰 세부 정보를 업데이트합니다. updatedDocuments에서 표제어 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

예제

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true)는 이전에 계산된 세부 정보를 무시하고 다시 계산합니다.

addLemmaDetailslower, uppernormalizeWords 함수에 의해 제거되는 정보를 사용하기 때문에 이러한 함수를 사용하기 전에 addLemmaDetails를 사용해야 합니다.

예제

모두 축소

토큰화된 문서 배열을 만듭니다.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

addLemmaDetails를 사용하여 표제어 세부 정보를 문서에 추가합니다. 이 함수는 텍스트의 표제어를 추출하고, 각 토큰의 표제어 형태를 tokenDetails에서 반환된 테이블에 추가합니다. 처음 몇 개 토큰에 대해 업데이트된 토큰 세부 정보를 표시합니다.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"    

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

출력 인수

모두 축소

업데이트된 문서로, tokenizedDocument 배열로 반환됩니다. updatedDocuments에서 토큰 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

버전 내역

R2018b에 개발됨