addLemmaDetails

문서에 토큰의 표제어 형태 추가

구문

updatedDocuments = addLemmaDetails(documents)

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true)

설명

addLemmaDetails를 사용하여 문서에 표제어 형태를 추가할 수 있습니다.

이 함수는 한국어, 영어, 일본어 텍스트를 지원합니다.

updatedDocuments = addLemmaDetails(documents)는 표제어 세부 정보를 documents에 추가한 다음 토큰 세부 정보를 업데이트합니다. updatedDocuments에서 표제어 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

예제

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true)는 이전에 계산된 세부 정보를 무시하고 다시 계산합니다.

팁

addLemmaDetails는 lower, upper 및 normalizeWords 함수에 의해 제거되는 정보를 사용하기 때문에 이러한 함수를 사용하기 전에 addLemmaDetails를 사용해야 합니다.

예제

모두 축소

문서에 표제어 세부 정보 추가하기

라이브 스크립트 열기

토큰화된 문서 배열을 만듭니다.

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

addLemmaDetails를 사용하여 표제어 세부 정보를 문서에 추가합니다. 이 함수는 텍스트의 표제어를 추출하고, 각 토큰의 표제어 형태를 tokenDetails에서 반환된 테이블에 추가합니다. 처음 몇 개 토큰에 대해 업데이트된 토큰 세부 정보를 표시합니다.

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)

     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"

입력 인수

모두 축소

`documents` — 입력 문서
`tokenizedDocument` 배열

입력 문서로, tokenizedDocument 배열로 지정됩니다.

출력 인수

모두 축소

`updatedDocuments` — 업데이트된 문서
`tokenizedDocument` 배열

업데이트된 문서로, tokenizedDocument 배열로 반환됩니다. updatedDocuments에서 토큰 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

버전 내역

R2018b에 개발됨

참고 항목

addLemmaDetails

구문

설명

예제

문서에 표제어 세부 정보 추가하기

입력 인수

documents — 입력 문서 tokenizedDocument 배열

출력 인수

updatedDocuments — 업데이트된 문서 tokenizedDocument 배열

버전 내역

참고 항목

도움말 항목

`documents` — 입력 문서
`tokenizedDocument` 배열

`updatedDocuments` — 업데이트된 문서
`tokenizedDocument` 배열