Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

addLemmaDetails

문서에 토큰의 표제어 형태 추가

설명

addLemmaDetails를 사용하여 문서에 표제어 형태를 추가할 수 있습니다.

이 함수는 한국어, 영어, 일본어 텍스트를 지원합니다.

예제

updatedDocuments = addLemmaDetails(documents)는 표제어 세부 정보를 documents에 추가한 다음 토큰 세부 정보를 업데이트합니다. updatedDocuments에서 표제어 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

예제

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true)는 이전에 계산된 세부 정보를 무시하고 다시 계산합니다.

addLemmaDetailslower, uppernormalizeWords 함수에 의해 제거되는 정보를 사용하기 때문에 이러한 함수를 사용하기 전에 addLemmaDetails를 사용해야 합니다.

예제

모두 축소

토큰화된 문서 배열을 만듭니다.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

addLemmaDetails를 사용하여 표제어 세부 정보를 문서에 추가합니다. 이 함수는 텍스트의 표제어를 추출하고, 각 토큰의 표제어 형태를 tokenDetails에서 반환된 테이블에 추가합니다. 처음 몇 개 토큰에 대해 업데이트된 토큰 세부 정보를 표시합니다.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
ans=8×6 table
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"    

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

출력 인수

모두 축소

업데이트된 문서로, tokenizedDocument 배열로 반환됩니다. updatedDocuments에서 토큰 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

R2018b에 개발됨