독일어 지원
이 항목에서는 독일어 텍스트를 지원하는 Text Analytics Toolbox™ 기능에 대해 설명합니다. 독일어 텍스트 데이터를 분석하는 방법을 보여주는 예제는 독일어 텍스트 데이터 분석하기 항목을 참조하십시오.
토큰화
tokenizedDocument 함수는 독일어 입력을 자동으로 검출합니다. 또는 tokenizedDocument의 'Language' 옵션을 'de'로 설정하십시오. 이 옵션은 토큰의 언어 세부 정보를 지정합니다. 토큰의 언어 세부 정보를 보려면 tokenDetails를 사용하십시오. 이러한 언어 세부 정보에 따라 토큰에서 removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails 및 addEntityDetails 함수의 동작이 달라집니다.
독일어 텍스트 토큰화하기
tokenizedDocument를 사용하여 독일어 텍스트를 토큰화합니다. 이 함수는 독일어 텍스트를 자동으로 검출합니다.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2×1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
문장 검출
문서에서 문장 구조를 검출하려면 addSentenceDetails를 사용합니다. abbreviations 함수를 사용하면 검출하고자 하는 사용자 지정된 약어 목록을 손쉽게 만들 수 있습니다.
독일어 문서에 문장 세부 정보 추가하기
tokenizedDocument를 사용하여 독일어 텍스트를 토큰화합니다.
str = [
"Guten Morgen, Dr. Schmidt. Geht es Ihnen wieder besser?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str);addSentenceDetails를 사용하여 문장 세부 정보를 문서에 추가합니다. 이 함수는 tokenDetails에서 반환된 테이블에 문장 번호를 추가합니다. 처음 몇 개 토큰에 대해 업데이트된 토큰 세부 정보를 표시합니다.
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails,10)
Token DocumentNumber SentenceNumber LineNumber Type Language
_________ ______________ ______________ __________ ___________ ________
"Guten" 1 1 1 letters de
"Morgen" 1 1 1 letters de
"," 1 1 1 punctuation de
"Dr" 1 1 1 letters de
"." 1 1 1 punctuation de
"Schmidt" 1 1 1 letters de
"." 1 1 1 punctuation de
"Geht" 1 2 1 letters de
"es" 1 2 1 letters de
"Ihnen" 1 2 1 letters de
독일어 약어 테이블
독일어 약어 테이블을 표시합니다. addSentenceDetails를 사용할 때 이 테이블을 사용해 문장 검출을 위한 사용자 지정 약어 테이블을 손쉽게 만들 수 있습니다.
tbl = abbreviations('Language','de'); head(tbl)
Abbreviation Usage
____________ _______
"A.T" regular
"ABl" regular
"Abb" regular
"Abdr" regular
"Abf" regular
"Abfl" regular
"Abh" regular
"Abk" regular
품사 세부 정보
독일어 품사 세부 정보를 문서에 추가하려면 addPartOfSpeechDetails 함수를 사용합니다.
독일어 텍스트의 품사 세부 정보 가져오기
tokenizedDocument를 사용하여 독일어 텍스트를 토큰화합니다.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2×1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
독일어 텍스트의 품사 세부 정보를 가져오려면 먼저 addPartOfSpeechDetails를 사용합니다.
documents = addPartOfSpeechDetails(documents);
품사 세부 정보를 표시하려면 tokenDetails 함수를 사용합니다.
tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech
________ ______________ ______________ __________ ___________ ________ ____________
"Guten" 1 1 1 letters de adjective
"Morgen" 1 1 1 letters de noun
"." 1 1 1 punctuation de punctuation
"Wie" 1 2 1 letters de adverb
"geht" 1 2 1 letters de verb
"es" 1 2 1 letters de pronoun
"dir" 1 2 1 letters de pronoun
"?" 1 2 1 punctuation de punctuation
개체명 인식
개체 태그를 문서에 추가하려면 addEntityDetails 함수를 사용합니다.
독일어 텍스트에 개체명 태그 추가하기
tokenizedDocument를 사용하여 독일어 텍스트를 토큰화합니다.
str = [
"Ernst zog von Frankfurt nach Berlin."
"Besuchen Sie Volkswagen in Wolfsburg."];
documents = tokenizedDocument(str);개체 태그를 독일어 텍스트에 추가하기 위해 addEntityDetails 함수를 사용합니다. 이 함수는 사람 이름, 위치, 조직 및 기타 개체명을 검출합니다.
documents = addEntityDetails(documents);
개체 세부 정보를 보기 위해 tokenDetails 함수를 사용합니다.
tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
___________ ______________ ______________ __________ ___________ ________ ____________ __________
"Ernst" 1 1 1 letters de proper-noun person
"zog" 1 1 1 letters de verb non-entity
"von" 1 1 1 letters de adposition non-entity
"Frankfurt" 1 1 1 letters de proper-noun location
"nach" 1 1 1 letters de adposition non-entity
"Berlin" 1 1 1 letters de proper-noun location
"." 1 1 1 punctuation de punctuation non-entity
"Besuchen" 2 1 1 letters de verb non-entity
"person", "location", "organization" 또는 "other" 개체로 태그가 지정된 단어를 표시합니다. 다음은 태그가 "non-entity"로 지정되지 않은 단어들입니다.
idx = tdetails.Entity ~= "non-entity";
tdetails(idx,:)ans=5×8 table
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity
____________ ______________ ______________ __________ _______ ________ ____________ ____________
"Ernst" 1 1 1 letters de proper-noun person
"Frankfurt" 1 1 1 letters de proper-noun location
"Berlin" 1 1 1 letters de proper-noun location
"Volkswagen" 2 1 1 letters de noun organization
"Wolfsburg" 2 1 1 letters de proper-noun location
불용어
토큰 언어 세부 정보에 따라 문서에서 불용어를 제거하려면 removeStopWords를 사용하십시오. 독일어 불용어 목록은 stopWords의 'Language' 옵션을 'de'로 설정하십시오.
문서에서 독일어 불용어 제거하기
tokenizedDocument를 사용하여 독일어 텍스트를 토큰화합니다. 이 함수는 독일어 텍스트를 자동으로 검출합니다.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str)documents =
2×1 tokenizedDocument:
8 tokens: Guten Morgen . Wie geht es dir ?
6 tokens: Heute wird ein guter Tag .
removeStopWords 함수를 사용하여 불용어를 제거합니다. 이 함수는 문서의 언어 세부 정보를 사용하여 어떤 언어의 불용어를 제거할지 결정합니다.
documents = removeStopWords(documents)
documents =
2×1 tokenizedDocument:
5 tokens: Guten Morgen . geht ?
5 tokens: Heute wird guter Tag .
어간 추출
토큰 언어 세부 정보에 따라 토큰의 어간을 추출하려면 normalizeWords를 사용합니다.
독일어 텍스트의 어간 추출하기
tokenizedDocument 함수를 사용하여 독일어 텍스트를 토큰화합니다. 이 함수는 독일어 텍스트를 자동으로 검출합니다.
str = [
"Guten Morgen. Wie geht es dir?"
"Heute wird ein guter Tag."];
documents = tokenizedDocument(str);normalizeWords를 사용하여 토큰의 어간을 추출합니다.
documents = normalizeWords(documents)
documents =
2×1 tokenizedDocument:
8 tokens: gut morg . wie geht es dir ?
6 tokens: heut wird ein gut tag .
언어에 독립적인 기능
단어 및 N-Gram 개수 세기
bagOfWords 함수와 bagOfNgrams 함수는 언어에 관계없이 tokenizedDocument 입력값을 지원합니다. 데이터가 포함된 tokenizedDocument 배열이 있는 경우 이러한 함수를 사용할 수 있습니다.
모델링 및 예측
fitlda 함수와 fitlsa 함수는 언어에 관계없이 bagOfWords 입력값과 bagOfNgrams 입력값을 지원합니다. 데이터가 포함된 bagOfWords 객체 또는 bagOfNgrams 객체가 있는 경우 이러한 함수를 사용할 수 있습니다.
trainWordEmbedding 함수는 언어에 관계없이 tokenizedDocument 또는 파일 입력값을 지원합니다. 올바른 형식의 데이터가 포함된 tokenizedDocument 배열 또는 파일이 있는 경우 이 함수를 사용할 수 있습니다.
참고 항목
tokenizedDocument | removeStopWords | stopWords | addPartOfSpeechDetails | tokenDetails | normalizeWords | addLanguageDetails