tokenDetails
토큰화된 문서 배열 내 토큰의 세부 정보
설명
예제
문서의 토큰 세부 정보 표시하기
토큰화된 문서 배열을 만듭니다.
str = [ ... "This is an example document. It has two sentences." "This document has one sentence and an emoticon. :)" "Here is another example document. :D"]; documents = tokenizedDocument(str);
처음 몇 개 토큰에 대한 토큰 세부 정보를 표시합니다.
tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "is" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "." 1 1 punctuation en "It" 1 1 letters en "has" 1 1 letters en
type
변수에는 각 토큰의 유형이 포함되어 있습니다. 문서에 포함된 이모티콘을 표시합니다.
idx = tdetails.Type == "emoticon";
tdetails(idx,:)
ans=2×5 table
Token DocumentNumber LineNumber Type Language
_____ ______________ __________ ________ ________
":)" 2 1 emoticon en
":D" 3 1 emoticon en
문서에 문장 세부 정보 추가하기
토큰화된 문서 배열을 만듭니다.
str = [ ... "This is an example document. It has two sentences." "This document has one sentence." "Here is another example document. It also has two sentences."]; documents = tokenizedDocument(str);
addSentenceDetails
를 사용하여 문장 세부 정보를 문서에 추가합니다. 이 함수는 tokenDetails
에서 반환된 테이블에 문장 번호를 추가합니다. 처음 몇 개 토큰에 대해 업데이트된 토큰 세부 정보를 표시합니다.
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language __________ ______________ ______________ __________ ___________ ________ "This" 1 1 1 letters en "is" 1 1 1 letters en "an" 1 1 1 letters en "example" 1 1 1 letters en "document" 1 1 1 letters en "." 1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en
세 번째 문서의 두 번째 문장에 대한 토큰 세부 정보를 표시합니다.
idx = tdetails.DocumentNumber == 3 & ...
tdetails.SentenceNumber == 2;
tdetails(idx,:)
ans=6×6 table
Token DocumentNumber SentenceNumber LineNumber Type Language
___________ ______________ ______________ __________ ___________ ________
"It" 3 2 1 letters en
"also" 3 2 1 letters en
"has" 3 2 1 letters en
"two" 3 2 1 letters en
"sentences" 3 2 1 letters en
"." 3 2 1 punctuation en
문서에 품사 세부 정보 추가하기
예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt
에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt
에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);
처음 몇 개 토큰에 대한 토큰 세부 정보를 표시합니다.
tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ "fairest" 1 1 letters en "creatures" 1 1 letters en "desire" 1 1 letters en "increase" 1 1 letters en "thereby" 1 1 letters en "beautys" 1 1 letters en "rose" 1 1 letters en "might" 1 1 letters en
addPartOfSpeechDetails
함수를 사용하여 품사 세부 정보를 문서에 추가합니다. 이 함수는 먼저 문서에 문장 정보를 추가한 다음, tokenDetails
에서 반환된 테이블에 품사 태그를 추가합니다. 처음 몇 개 토큰에 대해 업데이트된 토큰 세부 정보를 표시합니다.
documents = addPartOfSpeechDetails(documents); tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech ___________ ______________ ______________ __________ _______ ________ ______________ "fairest" 1 1 1 letters en adjective "creatures" 1 1 1 letters en noun "desire" 1 1 1 letters en noun "increase" 1 1 1 letters en noun "thereby" 1 1 1 letters en adverb "beautys" 1 1 1 letters en noun "rose" 1 1 1 letters en noun "might" 1 1 1 letters en auxiliary-verb
입력 인수
documents
— 입력 문서
tokenizedDocument
배열
입력 문서로, tokenizedDocument
배열로 지정됩니다.
출력 인수
tdetails
— 토큰 세부 정보 테이블
테이블
토큰 세부 정보 테이블. tdetails
에는 다음과 같은 변수가 있습니다.
이름 | 설명 |
---|---|
Token | 토큰 텍스트로, string형 스칼라로 반환됩니다. |
DocumentNumber | 토큰이 속하는 문서의 인덱스로, 양의 정수로 반환됩니다. |
SentenceNumber | 문서 내 토큰의 문장 번호로, 양의 정수로 반환됩니다. 이러한 세부 정보가 없는 경우 먼저 addSentenceDetails 함수를 사용하여 문장 세부 정보를 documents 에 추가하십시오. |
LineNumber | 문서 내 토큰의 라인 번호로, 양의 정수로 반환됩니다. |
Type | 토큰의 유형으로, 다음 유형 중 하나로 반환됩니다.
이러한 세부 정보가 없는 경우 먼저 |
Language | 토큰의 언어로, 다음 언어 중 하나로 반환됩니다.
이러한 언어 세부 정보에 따라 토큰에서 이러한 세부 정보가 없는 경우 먼저 Text Analytics Toolbox™의 언어 지원에 대한 자세한 내용은 언어 고려 사항 항목을 참조하십시오. |
PartOfSpeech | 품사 태그로, 다음 태그 중 하나로 반환됩니다.
이러한 세부 정보가 없는 경우 먼저 |
Entity | 개체 태그로, 다음 태그 중 하나로 지정됩니다.
이러한 세부 정보가 없는 경우 먼저 |
Lemma | 표제어 형태. 이러한 세부 정보가 없는 경우 먼저 |
Head | 문법적 종속 관계 헤드로,이 토큰이 수정하는 토큰의 인덱스로 지정됩니다. 이러한 세부 정보가 없는 경우 먼저 addDependencyDetails 함수를 사용하여 문법적 종속 관계 세부 정보를 documents 에 추가하십시오. |
Dependency | 문법적 종속 관계 유형으로, 다음 태그 중 하나로 지정됩니다. 여기에 나와 있는 종속 관계 유형은 일부에 불과합니다. 종속 관계 유형의 전체 목록은 [1] 항목을 참조하십시오.
이러한 세부 정보가 없는 경우 먼저 |
참고 문헌
[1] Universal Dependency Relations https://universaldependencies.org/u/dep/index.html.
버전 내역
R2018a에 개발됨R2018b: tokenDetails
가 이모지 문자에 대해 토큰 유형 emoji
를 반환함
R2018b부터는 tokenizedDocument
가 이모지 문자를 검출하고 tokenDetails
함수가 이러한 토큰을 유형 "emoji"
로 보고합니다. 이를 통해 이모지 문자가 포함된 텍스트를 더 쉽게 분석할 수 있습니다.
R2018a에서는 tokenDetails
가 이모지 문자를 유형 "other"
로 보고합니다. 유형이 "emoji"
또는 "other"
인 토큰의 인덱스를 찾으려면 인덱스 idx = tdetails.Type == "emoji" | tdetails.Type == "other"
를 사용하십시오. 여기서 tdetails
는 토큰 세부 정보 테이블입니다.
MATLAB 명령
다음 MATLAB 명령에 해당하는 링크를 클릭했습니다.
명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)