addLanguageDetails

문서에 언어 식별자 추가

구문

updatedDocuments = addLanguageDetails(documents)

updatedDocuments = addLanguageDetails(documents,Name,Value)

설명

addLanguageDetails를 사용하여 문서에 언어 식별자를 추가합니다.

이 함수는 한국어, 영어, 일본어, 독일어 텍스트를 지원합니다.

updatedDocuments = addLanguageDetails(documents)는 documents의 언어를 검출하고 토큰 세부 정보를 업데이트합니다. 이 함수는 언어 세부 정보가 누락된 토큰에만 세부 정보를 추가합니다. updatedDocuments에서 언어 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

예제

updatedDocuments = addLanguageDetails(documents,Name,Value)는 하나 이상의 이름-값 쌍을 사용하여 옵션을 추가로 지정합니다.

팁

addLanguageDetails 함수는 lower 및 upper 함수에 의해 제거되는 정보를 사용하기 때문에 이 두 함수를 사용하기 전에 addLanguageDetails 함수를 사용해야 합니다.

예제

모두 축소

문서에 언어 세부 정보 추가하기

라이브 스크립트 열기

단어로 구성된 배열로 일부 텍스트를 분할하여 수동으로 토큰화합니다. 'TokenizeMethod' 옵션을 'none'으로 설정하여, 수동으로 토큰화된 텍스트를 tokenizedDocument 객체로 변환합니다.

str = split("an example of a short sentence")';
documents = tokenizedDocument(str,'TokenizeMethod','none');

tokenDetails를 사용하여 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)

tdetails=6×2 table
      Token       DocumentNumber
    __________    ______________

    "an"                1       
    "example"           1       
    "of"                1       
    "a"                 1       
    "short"             1       
    "sentence"          1

'TokenizeMethod','none'을 지정하면 함수가 문서의 언어 세부 정보를 자동으로 검출하지 않습니다. 언어 세부 정보를 추가하려면 addLanguageDetails 함수를 사용하십시오. 기본적으로 이 함수는 언어를 자동으로 검출합니다.

documents = addLanguageDetails(documents);

tokenDetails를 사용하여 업데이트된 토큰 세부 정보를 표시합니다.

tdetails = tokenDetails(documents)

tdetails=6×4 table
      Token       DocumentNumber     Type      Language
    __________    ______________    _______    ________

    "an"                1           letters       en   
    "example"           1           letters       en   
    "of"                1           letters       en   
    "a"                 1           letters       en   
    "short"             1           letters       en   
    "sentence"          1           letters       en

입력 인수

모두 축소

`documents` — 입력 문서
`tokenizedDocument` 배열

입력 문서로, tokenizedDocument 배열로 지정됩니다.

이름-값 인수

모두 축소

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 각 이름과 값을 쉼표로 구분하고 Name을 따옴표로 묶으십시오.

예: 'DiscardKnownValues',true는 이전에 계산된 세부 정보를 무시하고 다시 계산하도록 지정합니다.

`Language` — 언어
`'en'` | `'ja'` | `'de'` | `'ko'`

언어로, 다음 중 하나로 지정됩니다.

'en' – 영어
'ja' – 일본어
'de' – 독일어
'ko' – 한국어

값을 지정하지 않은 경우 이 함수는 corpusLanguage 함수를 사용하여 입력 텍스트에서 언어를 검출합니다.

이 옵션은 토큰의 언어 세부 정보를 지정합니다. 토큰의 언어 세부 정보를 보려면 tokenDetails를 사용하십시오. 이러한 언어 세부 정보에 따라 토큰에서 removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails 및 addEntityDetails 함수의 동작이 달라집니다.

Text Analytics Toolbox™의 언어 지원에 대한 자세한 내용은 언어 고려 사항 항목을 참조하십시오.

`DiscardKnownValues` — 이전에 계산된 세부 정보를 무시하는 옵션
`false` (디폴트 값) | `true`

이전에 계산된 세부 정보를 무시하고 다시 계산하는 옵션으로, true 또는 false로 지정됩니다.

데이터형: logical

출력 인수

모두 축소

`updatedDocuments` — 업데이트된 문서
`tokenizedDocument` 배열

업데이트된 문서로, tokenizedDocument 배열로 반환됩니다. updatedDocuments에서 토큰 세부 정보를 가져오려면 tokenDetails를 사용하십시오.

버전 내역

R2018b에 개발됨

참고 항목

addLanguageDetails

구문

설명

예제

문서에 언어 세부 정보 추가하기

입력 인수

documents — 입력 문서 tokenizedDocument 배열

이름-값 인수

Language — 언어 'en' | 'ja' | 'de' | 'ko'

DiscardKnownValues — 이전에 계산된 세부 정보를 무시하는 옵션 false (디폴트 값) | true

출력 인수

updatedDocuments — 업데이트된 문서 tokenizedDocument 배열

버전 내역

참고 항목

도움말 항목

`documents` — 입력 문서
`tokenizedDocument` 배열

`Language` — 언어
`'en'` | `'ja'` | `'de'` | `'ko'`

`DiscardKnownValues` — 이전에 계산된 세부 정보를 무시하는 옵션
`false` (디폴트 값) | `true`

`updatedDocuments` — 업데이트된 문서
`tokenizedDocument` 배열