tokenDetails
토큰화된 문서 배열 내 토큰의 세부 정보
설명
예제
토큰화된 문서 배열을 만듭니다.
str = [ ... "This is an example document. It has two sentences." "This document has one sentence and an emoticon. :)" "Here is another example document. :D"]; documents = tokenizedDocument(str);
처음 몇 개 토큰에 대한 토큰 세부 정보를 표시합니다.
tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "is" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "." 1 1 punctuation en "It" 1 1 letters en "has" 1 1 letters en
type
변수에는 각 토큰의 유형이 포함되어 있습니다. 문서에 포함된 이모티콘을 표시합니다.
idx = tdetails.Type == "emoticon";
tdetails(idx,:)
ans=2×5 table
Token DocumentNumber LineNumber Type Language
_____ ______________ __________ ________ ________
":)" 2 1 emoticon en
":D" 3 1 emoticon en
토큰화된 문서 배열을 만듭니다.
str = [ ... "This is an example document. It has two sentences." "This document has one sentence." "Here is another example document. It also has two sentences."]; documents = tokenizedDocument(str);
addSentenceDetails
를 사용하여 문장 세부 정보를 문서에 추가합니다. 이 함수는 tokenDetails
에서 반환된 테이블에 문장 번호를 추가합니다. 처음 몇 개 토큰에 대해 업데이트된 토큰 세부 정보를 표시합니다.
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language __________ ______________ ______________ __________ ___________ ________ "This" 1 1 1 letters en "is" 1 1 1 letters en "an" 1 1 1 letters en "example" 1 1 1 letters en "document" 1 1 1 letters en "." 1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en
세 번째 문서의 두 번째 문장에 대한 토큰 세부 정보를 표시합니다.
idx = tdetails.DocumentNumber == 3 & ...
tdetails.SentenceNumber == 2;
tdetails(idx,:)
ans=6×6 table
Token DocumentNumber SentenceNumber LineNumber Type Language
___________ ______________ ______________ __________ ___________ ________
"It" 3 2 1 letters en
"also" 3 2 1 letters en
"has" 3 2 1 letters en
"two" 3 2 1 letters en
"sentences" 3 2 1 letters en
"." 3 2 1 punctuation en
예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt
에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt
에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);
처음 몇 개 토큰에 대한 토큰 세부 정보를 표시합니다.
tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ "fairest" 1 1 letters en "creatures" 1 1 letters en "desire" 1 1 letters en "increase" 1 1 letters en "thereby" 1 1 letters en "beautys" 1 1 letters en "rose" 1 1 letters en "might" 1 1 letters en
addPartOfSpeechDetails
함수를 사용하여 품사 세부 정보를 문서에 추가합니다. 이 함수는 먼저 문서에 문장 정보를 추가한 다음, tokenDetails
에서 반환된 테이블에 품사 태그를 추가합니다. 처음 몇 개 토큰에 대해 업데이트된 토큰 세부 정보를 표시합니다.
documents = addPartOfSpeechDetails(documents); tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech ___________ ______________ ______________ __________ _______ ________ ______________ "fairest" 1 1 1 letters en adjective "creatures" 1 1 1 letters en noun "desire" 1 1 1 letters en noun "increase" 1 1 1 letters en noun "thereby" 1 1 1 letters en adverb "beautys" 1 1 1 letters en noun "rose" 1 1 1 letters en noun "might" 1 1 1 letters en auxiliary-verb
입력 인수
입력 문서로, tokenizedDocument
배열로 지정됩니다.
출력 인수
토큰 세부 정보 테이블. tdetails
에는 다음과 같은 변수가 있습니다.
이름 | 설명 |
---|---|
Token | 토큰 텍스트로, string형 스칼라로 반환됩니다. |
DocumentNumber | 토큰이 속하는 문서의 인덱스로, 양의 정수로 반환됩니다. |
SentenceNumber | 문서 내 토큰의 문장 번호로, 양의 정수로 반환됩니다. 이러한 세부 정보가 없는 경우 먼저 addSentenceDetails 함수를 사용하여 문장 세부 정보를 documents 에 추가하십시오. |
LineNumber | 문서 내 토큰의 라인 번호로, 양의 정수로 반환됩니다. |
Type | 토큰의 유형으로, 다음 유형 중 하나로 반환됩니다.
이러한 세부 정보가 없는 경우 먼저 |
Language | 토큰의 언어로, 다음 언어 중 하나로 반환됩니다.
이러한 언어 세부 정보에 따라 토큰에서 이러한 세부 정보가 없는 경우 먼저 Text Analytics Toolbox™의 언어 지원에 대한 자세한 내용은 언어 고려 사항 항목을 참조하십시오. |
PartOfSpeech | 품사 태그로, 다음 태그 중 하나로 반환됩니다.
이러한 세부 정보가 없는 경우 먼저 |
Entity | 개체 태그로, 다음 태그 중 하나로 지정됩니다.
이러한 세부 정보가 없는 경우 먼저 |
Lemma | 표제어 형태. 이러한 세부 정보가 없는 경우 먼저 |
Head | 문법적 종속 관계 헤드로,이 토큰이 수정하는 토큰의 인덱스로 지정됩니다. 이러한 세부 정보가 없는 경우 먼저 addDependencyDetails 함수를 사용하여 문법적 종속 관계 세부 정보를 documents 에 추가하십시오. |
Dependency | 문법적 종속 관계 유형으로, 다음 태그 중 하나로 지정됩니다. 여기에 나와 있는 종속 관계 유형은 일부에 불과합니다. 종속 관계 유형의 전체 목록은 [1] 항목을 참조하십시오.
이러한 세부 정보가 없는 경우 먼저 |
참고 문헌
[1] Universal Dependency Relations https://universaldependencies.org/u/dep/index.html.
버전 내역
R2018a에 개발됨R2018b부터는 tokenizedDocument
가 이모지 문자를 검출하고 tokenDetails
함수가 이러한 토큰을 유형 "emoji"
로 보고합니다. 이를 통해 이모지 문자가 포함된 텍스트를 더 쉽게 분석할 수 있습니다.
R2018a에서는 tokenDetails
가 이모지 문자를 유형 "other"
로 보고합니다. 유형이 "emoji"
또는 "other"
인 토큰의 인덱스를 찾으려면 인덱스 idx = tdetails.Type == "emoji" | tdetails.Type == "other"
를 사용하십시오. 여기서 tdetails
는 토큰 세부 정보 테이블입니다.
MATLAB Command
You clicked a link that corresponds to this MATLAB command:
Run the command by entering it in the MATLAB Command Window. Web browsers do not support MATLAB commands.
웹사이트 선택
번역된 콘텐츠를 보고 지역별 이벤트와 혜택을 살펴보려면 웹사이트를 선택하십시오. 현재 계신 지역에 따라 다음 웹사이트를 권장합니다:
또한 다음 목록에서 웹사이트를 선택하실 수도 있습니다.
사이트 성능 최적화 방법
최고의 사이트 성능을 위해 중국 사이트(중국어 또는 영어)를 선택하십시오. 현재 계신 지역에서는 다른 국가의 MathWorks 사이트 방문이 최적화되지 않았습니다.
미주
- América Latina (Español)
- Canada (English)
- United States (English)
유럽
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)