tokenizedDocument
텍스트 분석에 사용되는 토큰화된 문서로 구성된 배열
설명
토큰화된 문서는 텍스트 분석에 사용되는 단어의 모음(토큰이라고도 함)으로 표현되는 문서입니다.
토큰화된 문서를 사용하여 다음과 같은 작업을 수행할 수 있습니다.
텍스트 내의 복합 토큰(예: 웹 주소, 이모티콘, 이모지, 해시태그)을 검출합니다.
removeWords
또는removeStopWords
함수를 사용하여 불용어와 같은 단어를 제거합니다.normalizeWords
함수를 사용하여 어간 추출 또는 표제어 추출 등과 같은 단어 수준의 전처리 작업을 수행합니다.bagOfWords
및bagOfNgrams
객체를 사용하여 단어 및 n-gram 빈도를 분석합니다.addSentenceDetails
와addPartOfSpeechDetails
함수를 사용하여 문장 및 품사 세부 정보를 추가합니다.addEntityDetails
함수를 사용하여 개체 태그를 추가합니다.addDependencyDetails
함수를 사용하여 문법적 종속 관계 세부 정보를 추가합니다.tokenDetails
함수를 사용하여 토큰에 대한 세부 정보를 표시합니다.
이 함수는 한국어, 영어, 일본어, 독일어 텍스트를 지원합니다. 다른 언어에서 tokenizedDocument
함수를 사용하는 방법을 알아보려면 언어 고려 사항 항목을 참조하십시오.
생성
구문
설명
는 토큰이 없는 토큰화된 스칼라 문서를 만듭니다.documents
= tokenizedDocument
는 하나 이상의 이름-값 쌍의 인수를 사용하여 옵션을 추가로 지정합니다.documents
= tokenizedDocument(str
,Name,Value
)
입력 인수
str
— 입력 텍스트
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열 | string형 배열로 구성된 셀형 배열
입력 텍스트로, string형 배열, 문자형 벡터, 문자형 벡터로 구성된 셀형 배열 또는 string형 배열로 구성된 셀형 배열로 지정됩니다.
입력 텍스트가 아직 단어로 분할되지 않은 경우 str
은 string형 배열, 문자형 벡터, 문자형 벡터로 구성된 셀형 배열 또는 string형 스칼라로 구성된 셀형 배열이어야 합니다.
예: ["an example of a short document";"a second short document"]
예: 'an example of a single document'
예: {'an example of a short document';'a second short document'}
입력 텍스트가 이미 단어로 분할된 경우 TokenizeMethod
를 "none"
으로 지정합니다. str
에 단일 문서가 포함되어 있는 경우 이는 단어로 구성된 string형 벡터, 문자형 벡터로 구성된 행 셀형 배열 또는 단어로 구성된 단일 string형 벡터가 포함된 셀형 배열이어야 합니다. str
에 여러 문서가 포함되어 있는 경우 이는 string형 배열로 구성된 셀형 배열이어야 합니다.
예: ["an" "example" "document"]
예: {'an','example','document'}
예: {["an" "example" "of" "a" "short" "document"]}
예: {["an" "example" "of" "a" "short" "document"];["a" "second" "short" "document"]}
데이터형: string
| char
| cell
선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN
으로 지정합니다. 여기서 Name
은 인수 이름이고 Value
는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.
R2021a 이전 릴리스에서는 각 이름과 값을 쉼표로 구분하고 Name
을 따옴표로 묶으십시오.
예: DetectPatterns={'email-address','web-address'}
는 이메일 주소와 웹 주소를 검출합니다.
TokenizeMethod
— 문서를 토큰화하는 방법
"unicode"
| "mecab"
| mecabOptions
객체 | "none"
문서를 토큰화하는 방법으로, 다음 값 중 하나로 지정됩니다.
"unicode"
– Unicode® Standard Annex #29[1] 및 ICU 토큰 추출기[2]에 기반한 규칙을 사용하여 입력 텍스트를 토큰화합니다.str
이 셀형 배열인 경우str
의 요소는 string형 스칼라 또는 문자형 벡터여야 합니다.Language
가"en"
또는"de"
인 경우"unicode"
가 디폴트 값입니다."mecab"
– MeCab 토큰 추출기[3]를 사용하여 한국어와 일본어 텍스트를 토큰화합니다.Language
가"ko"
또는"ja"
인 경우"mecab"
가 디폴트 값입니다.mecabOptions
객체 –mecabOptions
객체에 의해 지정된 MeCab 옵션을 사용하여 한국어와 일본어 텍스트를 토큰화합니다."none"
– 입력 텍스트를 토큰화하지 않습니다.
입력 텍스트가 이미 단어로 분할된 경우 TokenizeMethod
를 "none"
으로 지정합니다. str
에 단일 문서가 포함되어 있는 경우 이는 단어로 구성된 string형 벡터, 문자형 벡터로 구성된 행 셀형 배열 또는 단어로 구성된 단일 string형 벡터가 포함된 셀형 배열이어야 합니다. str
에 여러 문서가 포함되어 있는 경우 이는 string형 배열로 구성된 셀형 배열이어야 합니다.
DetectPatterns
— 검출할 복합 토큰의 패턴
"all"
(디폴트 값) | 문자형 벡터 | string형 배열 | 문자형 벡터로 구성된 셀형 배열
검출할 복합 토큰의 패턴으로, "none"
, "all"
또는 다음 값 중 하나 이상을 포함하는 string형 배열 또는 셀형 배열로 지정됩니다.
"email-address"
– 이메일 주소를 검출합니다. 예를 들어"user@domain.com"
을 단일 토큰으로 처리합니다."web-address"
– 웹 주소를 검출합니다. 예를 들어"https://www.mathworks.com"
을 단일 토큰으로 처리합니다."hashtag"
– 해시태그를 검출합니다. 예를 들어"#MATLAB"
을 단일 토큰으로 처리합니다."at-mention"
– at-멘션을 검출합니다. 예를 들어"@MathWorks"
를 단일 토큰으로 처리합니다."emoticon"
– 이모티콘을 검출합니다. 예를 들어":-D"
를 단일 토큰으로 처리합니다.
DetectPatterns
가 "none"
인 경우 함수는 복합 토큰 패턴을 검출하지 않습니다. DetectPatterns
가 "all"
인 경우 함수는 나열된 모든 복합 토큰 패턴을 검출합니다.
예: DetectPatterns="hashtag"
예: DetectPatterns={'email-address','web-address'}
데이터형: char
| string
| cell
CustomTokens
— 검출할 사용자 지정 토큰
''
(디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열 | 테이블
검출할 사용자 지정 토큰으로, 다음 값 중 하나로 지정됩니다.
사용자 지정 토큰을 포함하는 string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열.
Token
열에 사용자 지정 토큰이 포함되고Type
열에 해당 토큰 유형이 포함된 테이블.
사용자 지정 토큰을 string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정하는 경우 이 함수는 토큰 유형 "custom"
을 할당합니다. 사용자 지정 토큰 유형을 지정하려면 테이블 입력을 사용하십시오. 토큰 유형을 표시하려면 tokenDetails
함수를 사용하십시오.
두 개 이상의 충돌하는 사용자 지정 토큰이 있는 경우, 함수는 가장 긴 토큰을 사용합니다. 사용자 지정 토큰이 정규 표현식과 충돌하는 경우, 함수는 정규 표현식을 사용합니다.
예: CustomTokens=["C++" "C#"]
데이터형: char
| string
| table
| cell
RegularExpressions
— 검출할 정규 표현식
''
(디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열 | 테이블
검출할 정규 표현식으로, 다음 값 중 하나로 지정됩니다.
정규 표현식을 포함하는 string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열.
Pattern
열에 정규 표현식이 포함되고Type
열에 해당 토큰 유형이 포함된 테이블.
정규 표현식을 string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정하는 경우 이 함수는 토큰 유형 "custom"
을 할당합니다. 사용자 지정 토큰 유형을 지정하려면 테이블 입력을 사용하십시오. 토큰 유형을 표시하려면 tokenDetails
함수를 사용하십시오.
두 개 이상의 충돌하는 정규 표현식이 있는 경우, 함수는 마지막 일치 항목을 사용합니다. 사용자 지정 토큰이 정규 표현식과 충돌하는 경우, 함수는 정규 표현식을 사용합니다.
예: RegularExpressions=["ver:\d+" "rev:\d+"]
데이터형: char
| string
| table
| cell
TopLevelDomains
— 웹 주소 검출에 사용할 최상위 도메인
문자형 벡터 | string형 배열 | 문자형 벡터로 구성된 셀형 배열
웹 주소 검출에 사용할 최상위 도메인으로, 문자형 벡터, string형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다. 기본적으로 이 함수는 topLevelDomains
함수의 출력값을 사용합니다.
이 옵션은 DetectPatterns
가 "all"
이거나 "web-address"
를 포함하는 경우에만 적용됩니다.
예: TopLevelDomains=["com" "net" "org"]
데이터형: char
| string
| cell
Language
— 언어
"en"
| "ja"
| "de"
| "ko"
언어로, 다음 옵션 중 하나로 지정됩니다.
"en"
– 영어. 또한 이 옵션은TokenizeMethod
에 대한 디폴트 값을"unicode"
로 설정합니다."ja"
– 일본어. 또한 이 옵션은TokenizeMethod
에 대한 디폴트 값을"mecab"
로 설정합니다."de"
– 독일어. 또한 이 옵션은TokenizeMethod
에 대한 디폴트 값을"unicode"
로 설정합니다."ko"
– 한국어. 또한 이 옵션은TokenizeMethod
에 대한 디폴트 값을"mecab"
로 설정합니다.
값을 지정하지 않은 경우 이 함수는 corpusLanguage
함수를 사용하여 입력 텍스트에서 언어를 검출합니다.
이 옵션은 토큰의 언어 세부 정보를 지정합니다. 토큰의 언어 세부 정보를 보려면 tokenDetails
를 사용하십시오. 이러한 언어 세부 정보에 따라 토큰에서 removeStopWords
, addPartOfSpeechDetails
, normalizeWords
, addSentenceDetails
및 addEntityDetails
함수의 동작이 달라집니다.
Text Analytics Toolbox™의 언어 지원에 대한 자세한 내용은 언어 고려 사항 항목을 참조하십시오.
예: Language="ja"
속성
Vocabulary
— 문서 내 고유한 단어
string형 배열
문서 내 고유한 단어로, string형 배열로 지정됩니다. 단어가 특정 순서로 나타나지는 않습니다.
데이터형: string
객체 함수
전처리
erasePunctuation | 텍스트 및 문서에서 문장 부호 지우기 |
removeStopWords | 문서에서 불용어 제거 |
removeWords | 문서 또는 bag-of-words 모델에서 선택한 단어 제거 |
normalizeWords | 단어의 어간 또는 표제어 추출 |
correctSpelling | Correct spelling of words |
replaceWords | 문서 내 단어 바꾸기 |
replaceNgrams | 문서 내 n-gram 바꾸기 |
removeEmptyDocuments | 토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거 |
lower | 문서를 소문자로 변환 |
upper | 문서를 대문자로 변환 |
토큰 세부 정보
tokenDetails | 토큰화된 문서 배열 내 토큰의 세부 정보 |
addSentenceDetails | 문서에 문장 번호 추가 |
addPartOfSpeechDetails | 문서에 품사 태그 추가 |
addLanguageDetails | 문서에 언어 식별자 추가 |
addTypeDetails | 문서에 토큰 유형 세부 정보 추가 |
addLemmaDetails | 문서에 토큰의 표제어 형태 추가 |
addEntityDetails | 문서에 개체 태그 추가 |
addDependencyDetails | Add grammatical dependency details to documents |
내보내기
writeTextDocument | 텍스트 파일에 문서 쓰기 |
조작 및 변환
doclength | 문서 배열에 포함된 문서의 길이 |
context | 문맥 내의 단어 또는 n-gram이 나오는 경우를 문서에서 검색 |
contains | 패턴이 문서 내 부분문자열에서 일치하는지 검사 |
containsWords | 단어가 문서에 포함되었는지 검사 |
containsNgrams | n-gram이 문서에 포함되었는지 검사 |
splitSentences | 텍스트를 문장으로 분할 |
joinWords | 단어를 결합하여 문서를 문자열로 변환 |
doc2cell | 문서를 string형 벡터로 구성된 셀형 배열로 변환 |
string | 스칼라 문서를 string형 벡터로 변환 |
plus | 문서 추가 |
replace | 문서 내 부분문자열 바꾸기 |
docfun | 문서의 단어에 함수 적용 |
regexprep | Replace text in words of documents using regular expression |
표시
wordcloud | 텍스트, bag-of-words 모델, bag-of-n-grams 모델 또는 LDA 모델에서 워드 클라우드 차트 만들기 |
sentenceChart | Plot grammatical dependency parse tree of sentence |
예제
텍스트 토큰화하기
string형 배열에서 토큰화된 문서를 만듭니다.
str = [ "an example of a short sentence" "a second short sentence"]
str = 2x1 string
"an example of a short sentence"
"a second short sentence"
documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 6 tokens: an example of a short sentence 4 tokens: a second short sentence
복합 토큰 검출하기
문자열 str
에서 토큰화된 문서를 만듭니다. 기본적으로 이 함수는 해시태그 "#MATLAB"
, 이모티콘 ":-D"
, 웹 주소 "https://www.mathworks.com/help"
를 단일 토큰으로 처리합니다.
str = "Learn how to analyze text in #MATLAB! :-D see https://www.mathworks.com/help/";
document = tokenizedDocument(str)
document = tokenizedDocument: 11 tokens: Learn how to analyze text in #MATLAB ! :-D see https://www.mathworks.com/help/
해시태그만 복합 토큰으로 검출하려면 'DetectPatterns'
옵션을 'hashtag'
로만 지정합니다. 그러면 이 함수는 이모티콘 ":-D"
및 웹 주소 "https://www.mathworks.com/help"
를 여러 토큰으로 토큰화합니다.
document = tokenizedDocument(str,'DetectPatterns','hashtag')
document = tokenizedDocument: 24 tokens: Learn how to analyze text in #MATLAB ! : - D see https : / / www . mathworks . com / help /
문서에서 불용어 제거하기
문서로 구성된 배열에서 removeStopWords
를 사용하여 불용어를 제거합니다. tokenizedDocument
함수는 문서가 영어인 것을 검출하며 따라서 removeStopWords
는 영어 불용어를 제거합니다.
documents = tokenizedDocument([ "an example of a short sentence" "a second short sentence"]); newDocuments = removeStopWords(documents)
newDocuments = 2x1 tokenizedDocument: 3 tokens: example short sentence 3 tokens: second short sentence
문서 내 단어의 어간 추출하기
Porter 어간 추출기를 사용하여 문서 배열 내 단어의 어간을 추출합니다.
documents = tokenizedDocument([ "a strongly worded collection of words" "another collection of words"]); newDocuments = normalizeWords(documents)
newDocuments = 2x1 tokenizedDocument: 6 tokens: a strongli word collect of word 4 tokens: anoth collect of word
사용자 지정 토큰 지정하기
기본적으로 tokenizedDocument
함수는 기호가 포함된 토큰과 단어를 분할합니다. 예를 들어 이 함수는 "C++"와 "C#"을 여러 토큰으로 분할합니다.
str = "I am experienced in MATLAB, C++, and C#.";
documents = tokenizedDocument(str)
documents = tokenizedDocument: 14 tokens: I am experienced in MATLAB , C + + , and C # .
기호가 포함된 토큰을 함수가 분할하지 않도록 하려면 'CustomTokens'
옵션을 사용하여 사용자 지정 토큰을 지정합니다.
documents = tokenizedDocument(str,'CustomTokens',["C++" "C#"])
documents = tokenizedDocument: 11 tokens: I am experienced in MATLAB , C++ , and C# .
사용자 지정 토큰의 토큰 유형은 "custom"
입니다. 토큰 세부 정보를 표시합니다. Type
열에는 토큰 유형이 포함됩니다.
tdetails = tokenDetails(documents)
tdetails=11×5 table
Token DocumentNumber LineNumber Type Language
_____________ ______________ __________ ___________ ________
"I" 1 1 letters en
"am" 1 1 letters en
"experienced" 1 1 letters en
"in" 1 1 letters en
"MATLAB" 1 1 letters en
"," 1 1 punctuation en
"C++" 1 1 custom en
"," 1 1 punctuation en
"and" 1 1 letters en
"C#" 1 1 custom en
"." 1 1 punctuation en
고유한 토큰 유형을 지정하려면 Token
열에는 토큰이 포함되고 Type
열에는 유형이 포함된 사용자 지정 토큰을 테이블로 입력합니다. 기호가 포함되지 않은 토큰에 사용자 지정 유형을 할당하기 위해 테이블에도 포함시킵니다. 예를 들어 "MATLAB", "C++" 및 "C#"을 "programming-language"
토큰 유형에 할당할 테이블을 만드십시오.
T = table; T.Token = ["MATLAB" "C++" "C#"]'; T.Type = ["programming-language" "programming-language" "programming-language"]'
T=3×2 table
Token Type
________ ______________________
"MATLAB" "programming-language"
"C++" "programming-language"
"C#" "programming-language"
사용자 지정 토큰 테이블을 사용하여 텍스트를 토큰화하고 토큰 세부 정보를 표시합니다.
documents = tokenizedDocument(str,'CustomTokens',T);
tdetails = tokenDetails(documents)
tdetails=11×5 table
Token DocumentNumber LineNumber Type Language
_____________ ______________ __________ ____________________ ________
"I" 1 1 letters en
"am" 1 1 letters en
"experienced" 1 1 letters en
"in" 1 1 letters en
"MATLAB" 1 1 programming-language en
"," 1 1 punctuation en
"C++" 1 1 programming-language en
"," 1 1 punctuation en
"and" 1 1 letters en
"C#" 1 1 programming-language en
"." 1 1 punctuation en
정규 표현식을 사용하여 사용자 지정 토큰 지정하기
tokenizedDocument
함수는 기본적으로 기호가 포함된 토큰과 단어를 분할합니다. 예를 들어 이 함수는 "ver:2"
텍스트를 여러 토큰으로 분할합니다.
str = "Upgraded to ver:2 rev:3.";
documents = tokenizedDocument(str)
documents = tokenizedDocument: 9 tokens: Upgraded to ver : 2 rev : 3 .
함수가 특정 패턴이 있는 토큰을 분할하지 않도록 하려면 'RegularExpressions'
옵션을 사용하여 해당 패턴을 지정합니다.
버전 및 개정 번호(각각 "ver:"
및 "rev:"
뒤에 오는 숫자 문자열)를 나타내는 토큰을 검출하기 위한 정규 표현식을 지정합니다.
documents = tokenizedDocument(str,'RegularExpressions',["ver:\d+" "rev:\d+"])
documents = tokenizedDocument: 5 tokens: Upgraded to ver:2 rev:3 .
기본적으로 사용자 지정 토큰의 토큰 유형은 "custom"
입니다. 토큰 세부 정보를 표시합니다. Type
열에는 토큰 유형이 포함됩니다.
tdetails = tokenDetails(documents)
tdetails=5×5 table
Token DocumentNumber LineNumber Type Language
__________ ______________ __________ ___________ ________
"Upgraded" 1 1 letters en
"to" 1 1 letters en
"ver:2" 1 1 custom en
"rev:3" 1 1 custom en
"." 1 1 punctuation en
고유한 토큰 유형을 지정하려면 Pattern
열에는 정규 표현식이 포함되고 Type
열에는 토큰 유형이 포함된 정규 표현식을 테이블로 입력합니다.
T = table; T.Pattern = ["ver:\d+" "rev:\d+"]'; T.Type = ["version" "revision"]'
T=2×2 table
Pattern Type
_________ __________
"ver:\d+" "version"
"rev:\d+" "revision"
사용자 지정 토큰 테이블을 사용하여 텍스트를 토큰화하고 토큰 세부 정보를 표시합니다.
documents = tokenizedDocument(str,'RegularExpressions',T);
tdetails = tokenDetails(documents)
tdetails=5×5 table
Token DocumentNumber LineNumber Type Language
__________ ______________ __________ ___________ ________
"Upgraded" 1 1 letters en
"to" 1 1 letters en
"ver:2" 1 1 version en
"rev:3" 1 1 revision en
"." 1 1 punctuation en
문서에서 나오는 단어 검색하기
예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt
에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt
에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);
단어 "life"를 검색합니다.
tbl = context(documents,"life");
head(tbl)
Context Document Word ________________________________________________________ ________ ____ "consumst thy self single life ah thou issueless shalt " 9 10 "ainted counterfeit lines life life repair times pencil" 16 35 "d counterfeit lines life life repair times pencil pupi" 16 36 " heaven knows tomb hides life shows half parts write b" 17 14 "he eyes long lives gives life thee " 18 69 "tender embassy love thee life made four two alone sink" 45 23 "ves beauty though lovers life beauty shall black lines" 63 50 "s shorn away live second life second head ere beautys " 68 27
해당 단어를 string형 배열로 표시합니다.
tbl.Context
ans = 23x1 string
"consumst thy self single life ah thou issueless shalt "
"ainted counterfeit lines life life repair times pencil"
"d counterfeit lines life life repair times pencil pupi"
" heaven knows tomb hides life shows half parts write b"
"he eyes long lives gives life thee "
"tender embassy love thee life made four two alone sink"
"ves beauty though lovers life beauty shall black lines"
"s shorn away live second life second head ere beautys "
"e rehearse let love even life decay lest wise world lo"
"st bail shall carry away life hath line interest memor"
"art thou hast lost dregs life prey worms body dead cow"
" thoughts food life sweetseasond showers gro"
"tten name hence immortal life shall though once gone w"
" beauty mute others give life bring tomb lives life fa"
"ve life bring tomb lives life fair eyes poets praise d"
" steal thyself away term life thou art assured mine li"
"fe thou art assured mine life longer thy love stay dep"
" fear worst wrongs least life hath end better state be"
"anst vex inconstant mind life thy revolt doth lie o ha"
" fame faster time wastes life thou preventst scythe cr"
"ess harmful deeds better life provide public means pub"
"ate hate away threw savd life saying "
" many nymphs vowd chaste life keep came tripping maide"
일본어 텍스트 토큰화하기
tokenizedDocument
를 사용하여 일본어 텍스트를 토큰화합니다. 이 함수는 일본어 텍스트를 자동으로 검출합니다.
str = [ "恋に悩み、苦しむ。" "恋の悩みで苦しむ。" "空に星が輝き、瞬いている。" "空の星が輝きを増している。"]; documents = tokenizedDocument(str)
documents = 4x1 tokenizedDocument: 6 tokens: 恋 に 悩み 、 苦しむ 。 6 tokens: 恋 の 悩み で 苦しむ 。 10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。 10 tokens: 空 の 星 が 輝き を 増し て いる 。
독일어 텍스트 토큰화하기
tokenizedDocument
를 사용하여 독일어 텍스트를 토큰화합니다. 이 함수는 독일어 텍스트를 자동으로 검출합니다.
str = [ "Guten Morgen. Wie geht es dir?" "Heute wird ein guter Tag."]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8 tokens: Guten Morgen . Wie geht es dir ? 6 tokens: Heute wird ein guter Tag .
세부 정보
언어 고려 사항
tokenizedDocument
함수에는 한국어, 영어, 일본어, 독일어만을 위한 내장 규칙이 있습니다. 영어와 독일어 텍스트의 경우 tokenizedDocument
의 'unicode'
토큰화 방법이 Unicode Standard Annex #29[1] 및 해시태그, URL 같은 복합 토큰을 더욱 잘 검출할 수 있도록 수정된 ICU 토큰 추출기[2]에 기반한 규칙을 사용하여 토큰을 검출합니다. 한국어와 일본어 텍스트의 경우 'mecab'
토큰화 방법이 MeCab 토큰 추출기[3]에 기반한 규칙을 사용하여 토큰을 검출합니다.
다른 언어에도 tokenizedDocument
를 사용할 수 있습니다. tokenizedDocument
에서 유용한 결과가 나오지 않는 경우 텍스트를 수동으로 토큰화해 보십시오. 수동으로 토큰화된 텍스트에서 tokenizedDocument
배열을 만들려면 'TokenizeMethod'
옵션을 'none'
으로 설정하십시오.
자세한 내용은 언어 고려 사항 항목을 참조하십시오.
참고 문헌
[1] Unicode Text Segmentation. https://www.unicode.org/reports/tr29/
[2] Boundary Analysis. https://unicode-org.github.io/icu/userguide/boundaryanalysis/
[3] MeCab: Yet Another Part-of-Speech and Morphological Analyzer. https://taku910.github.io/mecab/
버전 내역
R2017b에 개발됨R2022a: tokenizedDocument
가 숫자와 일부 특수 문자가 포함된 토큰을 분할하지 않음
R2022a부터는 tokenizedDocument
가 마침표, 하이픈, 콜론, 슬래시 및 과학 표기법과 같은 일부 특수 문자 옆에 숫자가 표시되는 일부 토큰을 분할하지 않습니다. 이 동작은 숫자, 날짜, 시간이 포함된 텍스트를 토큰화할 때 더 나은 결과를 얻을 수 있습니다.
이전 버전에서는 tokenizedDocument
가 이러한 문자에서 토큰을 분할할 수도 있습니다. 이 동작을 재현하려면 텍스트를 수동으로 토큰화하거나 tokenizedDocument
를 사용하기 전에 특수 문자 주위에 공백 문자를 삽입하십시오.
R2019b: tokenizedDocument
에서 한국어 검출
R2019b부터는 tokenizedDocument
가 한국어를 검출하고 'Language'
옵션을 'ko'
로 설정합니다. 이 설정에 따라 한국어 문서 입력에 대한 addSentenceDetails
, addPartOfSpeechDetails
, removeStopWords
및 normalizeWords
함수의 기본 동작이 달라집니다. 이러한 변경에 따라 한국어 전용 규칙과 단어 목록을 분석에 사용할 수 있게 되었습니다. tokenizedDocument
가 텍스트를 한국어로 잘못 검출하는 경우 tokenizedDocument
의 'Language'
이름-값 쌍을 설정하여 수동으로 언어를 지정할 수 있습니다.
이전 버전에서는 tokenizedDocument
가 일반적으로 한국어 텍스트를 영어로 검출하고 'Language'
옵션을 'en'
으로 설정합니다. 이 동작을 재현하려면 tokenizedDocument
의 'Language'
이름-값 쌍을 수동으로 'en'
으로 설정하십시오.
R2018b: tokenizedDocument
에서 이모티콘 검출
R2018b부터는 tokenizedDocument
에서 기본적으로 이모티콘 토큰을 검출합니다. 이 동작을 통해 이모티콘이 포함된 텍스트를 더 쉽게 분석할 수 있습니다.
R2017b와 R2018a에서는 tokenizedDocument
가 이모티콘 토큰을 여러 토큰으로 분할합니다. 이 동작을 재현하려면 tokenizedDocument
에서 'DetectPatterns'
옵션을 {'email-address','web-address','hashtag','at-mention'}
으로 지정하십시오.
R2018b: tokenDetails
가 이모지 문자에 대해 토큰 유형 emoji
를 반환함
R2018b부터는 tokenizedDocument
가 이모지 문자를 검출하고 tokenDetails
함수가 이러한 토큰을 유형 "emoji"
로 보고합니다. 이를 통해 이모지 문자가 포함된 텍스트를 더 쉽게 분석할 수 있습니다.
R2018a에서는 tokenDetails
가 이모지 문자를 유형 "other"
로 보고합니다. 유형이 "emoji"
또는 "other"
인 토큰의 인덱스를 찾으려면 인덱스 idx = tdetails.Type == "emoji" | tdetails.Type == "other"
를 사용하십시오. 여기서 tdetails
는 토큰 세부 정보 테이블입니다.
R2018b: tokenizedDocument
가 숫자 사이의 슬래시와 콜론에서 분할하지 않음
R2018b부터 tokenizedDocument
는 두 숫자 사이에 나타나는 슬래시, 백슬래시 또는 콜론에서 분할하지 않습니다. 이 동작은 날짜와 시간이 포함된 텍스트를 토큰화할 때 더 나은 결과를 얻을 수 있습니다.
이전 버전에서는 tokenizedDocument
가 이들 문자에서 분할합니다. 이 동작을 재현하려면 텍스트를 수동으로 토큰화하거나 tokenizedDocument
를 사용하기 전에 슬래시, 백슬래시 및 콜론 주위에 공백 문자를 삽입합니다.
MATLAB 명령
다음 MATLAB 명령에 해당하는 링크를 클릭했습니다.
명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)