Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

addTypeDetails

문서에 토큰 유형 세부 정보 추가

설명

예제

updatedDocuments = addTypeDetails(documents)documents에서 토큰 유형을 감지하고 토큰 세부 정보를 업데이트합니다. 이 함수는 알 수 없는 유형의 토큰에만 유형 세부 정보를 추가합니다. updatedDocuments에서 토큰 유형을 가져오려면 tokenDetails를 사용하십시오.

예제

updatedDocuments = addTypeDetails(documents,Name,Value)는 하나 이상의 이름-값 쌍을 사용하여 옵션을 추가로 지정합니다.

addTypeDetailslower, uppererasePunctuation 함수에 의해 제거되는 정보를 사용하기 때문에 이러한 함수를 사용하기 전에 addTypeDetails를 사용해야 합니다.

예제

모두 축소

'TokenizeMethod' 옵션을 'none'으로 설정하여, 수동으로 토큰화된 텍스트를 tokenizedDocument 객체로 변환합니다.

str = ["For" "more" "information" "," "see" "https://www.mathworks.com" "."];
documents = tokenizedDocument(str,'TokenizeMethod','none')
documents = 
  tokenizedDocument:

   7 tokens: For more information , see https://www.mathworks.com .

tokenDetails 함수를 사용하여 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)
tdetails=7×2 table
               Token               DocumentNumber
    ___________________________    ______________

    "For"                                1       
    "more"                               1       
    "information"                        1       
    ","                                  1       
    "see"                                1       
    "https://www.mathworks.com"          1       
    "."                                  1       

tokenizedDocument 함수에 대한 호출에서 'TokenizeMethod''none'으로 설정하면 이 함수는 토큰 유형을 감지하지 않습니다. 토큰 유형 세부 정보를 추가하려면 addTypeDetails 함수를 사용하십시오.

documents = addTypeDetails(documents);

업데이트된 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)
tdetails=7×3 table
               Token               DocumentNumber       Type    
    ___________________________    ______________    ___________

    "For"                                1           letters    
    "more"                               1           letters    
    "information"                        1           letters    
    ","                                  1           punctuation
    "see"                                1           letters    
    "https://www.mathworks.com"          1           web-address
    "."                                  1           punctuation

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

이름-값 쌍의 인수

선택적으로 Name,Value 인수가 쉼표로 구분되어 지정됩니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. Name은 따옴표 안에 표시해야 합니다. Name1,Value1,...,NameN,ValueN과 같이 여러 개의 이름-값 쌍의 인수를 어떤 순서로든 지정할 수 있습니다.

예: 'TopLevelDomains',["com" "net" "org"]는 웹 주소 감지에 사용할 최상위 도메인 "com", "net", "org"를 지정합니다.

웹 주소 감지에 사용할 최상위 도메인으로, 문자형 벡터, string형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

TopLevelDomains를 지정하지 않으면 이 함수는 topLevelDomains 함수의 출력값을 사용합니다.

예: ["com" "net" "org"]

데이터형: char | string | cell

이전에 계산된 세부 정보를 무시하고 다시 계산하는 옵션으로, true 또는 false로 지정됩니다.

데이터형: logical

출력 인수

모두 축소

업데이트된 문서로, tokenizedDocument 배열로 반환됩니다. updatedDocuments에서 토큰 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

R2018b에 개발됨