Main Content

addLanguageDetails

문서에 언어 식별자 추가

설명

addLanguageDetails를 사용하여 문서에 언어 식별자를 추가합니다.

이 함수는 한국어, 영어, 일본어, 독일어 텍스트를 지원합니다.

예제

updatedDocuments = addLanguageDetails(documents)documents의 언어를 검출하고 토큰 세부 정보를 업데이트합니다. 이 함수는 언어 세부 정보가 누락된 토큰에만 세부 정보를 추가합니다. updatedDocuments에서 언어 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

updatedDocuments = addLanguageDetails(documents,Name,Value)는 하나 이상의 이름-값 쌍을 사용하여 옵션을 추가로 지정합니다.

addLanguageDetails 함수는 lowerupper 함수에 의해 제거되는 정보를 사용하기 때문에 이 두 함수를 사용하기 전에 addLanguageDetails 함수를 사용해야 합니다.

예제

모두 축소

단어로 구성된 배열로 일부 텍스트를 분할하여 수동으로 토큰화합니다. 'TokenizeMethod' 옵션을 'none'으로 설정하여, 수동으로 토큰화된 텍스트를 tokenizedDocument 객체로 변환합니다.

str = split("an example of a short sentence")';
documents = tokenizedDocument(str,'TokenizeMethod','none');

tokenDetails를 사용하여 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)
tdetails=6×2 table
      Token       DocumentNumber
    __________    ______________

    "an"                1       
    "example"           1       
    "of"                1       
    "a"                 1       
    "short"             1       
    "sentence"          1       

'TokenizeMethod','none'을 지정하면 함수가 문서의 언어 세부 정보를 자동으로 검출하지 않습니다. 언어 세부 정보를 추가하려면 addLanguageDetails 함수를 사용하십시오. 기본적으로 이 함수는 언어를 자동으로 검출합니다.

documents = addLanguageDetails(documents);

tokenDetails를 사용하여 업데이트된 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)
tdetails=6×4 table
      Token       DocumentNumber     Type      Language
    __________    ______________    _______    ________

    "an"                1           letters       en   
    "example"           1           letters       en   
    "of"                1           letters       en   
    "a"                 1           letters       en   
    "short"             1           letters       en   
    "sentence"          1           letters       en   

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

이름-값 인수

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 각 이름과 값을 쉼표로 구분하고 Name을 따옴표로 묶으십시오.

예: 'DiscardKnownValues',true는 이전에 계산된 세부 정보를 무시하고 다시 계산하도록 지정합니다.

언어로, 다음 중 하나로 지정됩니다.

  • 'en' – 영어

  • 'ja' – 일본어

  • 'de' – 독일어

  • 'ko' – 한국어

값을 지정하지 않은 경우 이 함수는 corpusLanguage 함수를 사용하여 입력 텍스트에서 언어를 검출합니다.

이 옵션은 토큰의 언어 세부 정보를 지정합니다. 토큰의 언어 세부 정보를 보려면 tokenDetails를 사용하십시오. 이러한 언어 세부 정보에 따라 토큰에서 removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetailsaddEntityDetails 함수의 동작이 달라집니다.

Text Analytics Toolbox™의 언어 지원에 대한 자세한 내용은 언어 고려 사항 항목을 참조하십시오.

이전에 계산된 세부 정보를 무시하고 다시 계산하는 옵션으로, true 또는 false로 지정됩니다.

데이터형: logical

출력 인수

모두 축소

업데이트된 문서로, tokenizedDocument 배열로 반환됩니다. updatedDocuments에서 토큰 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

버전 내역

R2018b에 개발됨