Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

addLanguageDetails

문서에 언어 식별자 추가

설명

addLanguageDetails를 사용하여 문서에 언어 식별자를 추가합니다.

이 함수는 한국어, 영어, 일본어, 독일어 텍스트를 지원합니다.

예제

updatedDocuments = addLanguageDetails(documents)documents의 언어를 감지하고 토큰 세부 정보를 업데이트합니다. 이 함수는 언어 세부 정보가 누락된 토큰에만 세부 정보를 추가합니다. updatedDocuments에서 언어 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

updatedDocuments = addLanguageDetails(documents,Name,Value)는 하나 이상의 이름-값 쌍을 사용하여 옵션을 추가로 지정합니다.

addLanguageDetails 함수는 lowerupper 함수에 의해 제거되는 정보를 사용하기 때문에 이 두 함수를 사용하기 전에 addLanguageDetails 함수를 사용해야 합니다.

예제

모두 축소

단어로 구성된 배열로 일부 텍스트를 분할하여 수동으로 토큰화합니다. 'TokenizeMethod' 옵션을 'none'으로 설정하여, 수동으로 토큰화된 텍스트를 tokenizedDocument 객체로 변환합니다.

str = split("an example of a short sentence")';
documents = tokenizedDocument(str,'TokenizeMethod','none');

tokenDetails를 사용하여 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)
tdetails=6×2 table
      Token       DocumentNumber
    __________    ______________

    "an"                1       
    "example"           1       
    "of"                1       
    "a"                 1       
    "short"             1       
    "sentence"          1       

'TokenizeMethod','none'을 지정하면 함수가 문서의 언어 세부 정보를 자동으로 감지하지 않습니다. 언어 세부 정보를 추가하려면 addLanguageDetails 함수를 사용하십시오. 기본적으로 이 함수는 언어를 자동으로 감지합니다.

documents = addLanguageDetails(documents);

tokenDetails를 사용하여 업데이트된 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)
tdetails=6×4 table
      Token       DocumentNumber     Type      Language
    __________    ______________    _______    ________

    "an"                1           letters       en   
    "example"           1           letters       en   
    "of"                1           letters       en   
    "a"                 1           letters       en   
    "short"             1           letters       en   
    "sentence"          1           letters       en   

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

이름-값 인수

예: 'DiscardKnownValues',true는 이전에 계산된 세부 정보를 무시하고 다시 계산하도록 지정합니다.

선택적으로 Name,Value 인수가 쉼표로 구분되어 지정됩니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. Name은 따옴표 안에 표시해야 합니다. Name1,Value1,...,NameN,ValueN과 같이 여러 개의 이름-값 쌍의 인수를 어떤 순서로든 지정할 수 있습니다.

언어로, 다음 중 하나로 지정됩니다.

  • 'en' – 영어

  • 'ja' – 일본어

  • 'de' – 독일어

  • 'ko' – 한국어

값을 지정하지 않은 경우 이 함수는 corpusLanguage 함수를 사용하여 입력 텍스트에서 언어를 감지합니다.

이 옵션은 토큰의 언어 세부 정보를 지정합니다. 토큰의 언어 세부 정보를 보려면 tokenDetails를 사용하십시오. 이러한 언어 세부 정보에 따라 토큰에서 removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetailsaddEntityDetails 함수의 동작이 달라집니다.

Text Analytics Toolbox™의 언어 지원에 대한 자세한 내용은 언어 고려 사항 항목을 참조하십시오.

이전에 계산된 세부 정보를 무시하고 다시 계산하는 옵션으로, true 또는 false로 지정됩니다.

데이터형: logical

출력 인수

모두 축소

업데이트된 문서로, tokenizedDocument 배열로 반환됩니다. updatedDocuments에서 토큰 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

버전 내역

R2018b에 개발됨