Main Content

addTypeDetails

문서에 토큰 유형 세부 정보 추가

설명

예제

updatedDocuments = addTypeDetails(documents)documents에서 토큰 유형을 검출하고 토큰 세부 정보를 업데이트합니다. 이 함수는 알 수 없는 유형의 토큰에만 유형 세부 정보를 추가합니다. updatedDocuments에서 토큰 유형을 가져오려면 tokenDetails를 사용하십시오.

예제

updatedDocuments = addTypeDetails(documents,Name,Value)는 하나 이상의 이름-값 쌍을 사용하여 옵션을 추가로 지정합니다.

addTypeDetailslower, uppererasePunctuation 함수에 의해 제거되는 정보를 사용하기 때문에 이러한 함수를 사용하기 전에 addTypeDetails를 사용해야 합니다.

예제

모두 축소

'TokenizeMethod' 옵션을 'none'으로 설정하여, 수동으로 토큰화된 텍스트를 tokenizedDocument 객체로 변환합니다.

str = ["For" "more" "information" "," "see" "https://www.mathworks.com" "."];
documents = tokenizedDocument(str,'TokenizeMethod','none')
documents = 
  tokenizedDocument:

   7 tokens: For more information , see https://www.mathworks.com .

tokenDetails 함수를 사용하여 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)
tdetails=7×2 table
               Token               DocumentNumber
    ___________________________    ______________

    "For"                                1       
    "more"                               1       
    "information"                        1       
    ","                                  1       
    "see"                                1       
    "https://www.mathworks.com"          1       
    "."                                  1       

tokenizedDocument 함수에 대한 호출에서 'TokenizeMethod''none'으로 설정하면 이 함수는 토큰 유형을 검출하지 않습니다. 토큰 유형 세부 정보를 추가하려면 addTypeDetails 함수를 사용하십시오.

documents = addTypeDetails(documents);

업데이트된 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)
tdetails=7×3 table
               Token               DocumentNumber       Type    
    ___________________________    ______________    ___________

    "For"                                1           letters    
    "more"                               1           letters    
    "information"                        1           letters    
    ","                                  1           punctuation
    "see"                                1           letters    
    "https://www.mathworks.com"          1           web-address
    "."                                  1           punctuation

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

이름-값 인수

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 각 이름과 값을 쉼표로 구분하고 Name을 따옴표로 묶으십시오.

예: 'TopLevelDomains',["com" "net" "org"]는 웹 주소 검출에 사용할 최상위 도메인 "com", "net", "org"를 지정합니다.

웹 주소 검출에 사용할 최상위 도메인으로, 문자형 벡터, string형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

TopLevelDomains를 지정하지 않으면 이 함수는 topLevelDomains 함수의 출력값을 사용합니다.

예: ["com" "net" "org"]

데이터형: char | string | cell

이전에 계산된 세부 정보를 무시하고 다시 계산하는 옵션으로, true 또는 false로 지정됩니다.

데이터형: logical

출력 인수

모두 축소

업데이트된 문서로, tokenizedDocument 배열로 반환됩니다. updatedDocuments에서 토큰 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

버전 내역

R2018b에 개발됨