mecabOptions
MeCab 토큰화 옵션
설명
mecabOptions
객체는 한국어 텍스트와 일본어 텍스트를 토큰화하기 위한 추가 옵션을 지정합니다.
지정된 MeCab 토큰화 옵션을 사용하여 토큰화하려면 tokenizedDocument
의 'TokenizeMethod'
옵션을 사용하십시오.
생성
속성
Model
— 훈련된 모델의 경로
string형 스칼라 | 문자형 벡터
훈련된 모델(MeCab 사전)의 경로로, string형 스칼라 또는 문자형 벡터로 지정됩니다.
디폴트 값은 일본어 토큰화를 위한 내부 사전의 경로입니다.
예: "C:\myDict"
데이터형: char
| string
UserModel
— 모델 확장자가 포함된 파일
""
(디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열
모델 확장자가 포함된 파일(MeCab 사용자 사전 .dic
파일)로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.
예: "C:\myFile.dic"
데이터형: char
| string
| cell
LemmaExtractor
— MeCab 회신에서 표제어를 추출하는 함수
@textanalytics.ja.mecabToLemma
(디폴트 값) | 함수 핸들
MeCab 회신에서 표제어를 추출하는 함수로, 함수 핸들로 지정됩니다.
이 함수의 형식은 lemmata = fun(words,info)
여야 합니다. 여기서 words
는 토큰으로 구성된 string형 벡터이고, info
는 다음 필드를 갖는 구조체입니다.
Feature
–words
와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).PartOfSpeech
– 사전 내에서 품사 분류에 사용되는 숫자형 코드.
출력값 lemmata
는 words
와 동일한 크기의 string형 배열로, 추출된 표제어를 포함합니다.
디폴트 표제어 추출기는 textanalytics.ja.mecabToLemma
함수입니다.
데이터형: function_handle
POSExtractor
— MeCab 회신에서 품사 정보를 추출하는 함수
@textanalytics.ja.mecabToPOS
(디폴트 값) | 함수 핸들
MeCab 회신에서 품사 정보를 추출하는 함수로, 함수 핸들로 지정됩니다.
이 함수의 형식은 posTags = fun(words,info)
여야 합니다. 여기서 words
는 토큰으로 구성된 string형 벡터이고, info
는 다음 필드를 갖는 구조체입니다.
Feature
–words
와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).PartOfSpeech
– 사전 내에서 품사 분류에 사용되는 숫자형 코드.
출력값 posTags
는 words
와 동일한 크기의 categorical형 배열로, 다음 범주에서 추출된 품사 태그를 포함합니다.
adjective
adposition
adverb
auxiliary-verb
coord-conjunction
determiner
interjection
noun
numeral
pronoun
proper-noun
punctuation
symbol
verb
other
디폴트 품사 정보 추출기는 textanalytics.ja.mecabToPOS
함수입니다.
데이터형: function_handle
NERExtractor
— MeCab 회신에서 개체명 정보를 추출하는 함수
@textanalytics.ja.mecabToNER
(디폴트 값) | 함수 핸들
MeCab 회신에서 개체명 정보를 추출하는 함수로, 함수 핸들로 지정됩니다.
이 함수의 형식은 entities = fun(words,info)
여야 합니다. 여기서 words
는 토큰으로 구성된 string형 벡터이고, info
는 다음 필드를 갖는 구조체입니다.
Feature
–words
와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).PartOfSpeech
– 사전 내에서 품사 분류에 사용되는 숫자형 코드.
출력값 entities
는 words
와 동일한 크기의 categorical형 배열로, 다음 범주에서 추출된 개체를 포함합니다.
non-entity
person
organization
location
other
디폴트 품사 정보 추출기는 textanalytics.ja.mecabToNER
함수입니다.
데이터형: function_handle
예제
MeCab options 객체 만들기
일본어 토큰화를 위한 디폴트 옵션을 포함하는 MecabOptions
객체를 만듭니다.
options = mecabOptions
options = MecabOptions with properties: Model: "C:\Program Files\MATLAB\R2023a\sys\share\dict-ipadic" UserModel: "" LemmaExtractor: @textanalytics.ja.mecabToLemma POSExtractor: @textanalytics.ja.mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER
토큰화를 위한 MeCab 사용자 사전 지정하기
사용자 지정 MeCab 옵션을 사용하여 일본어 텍스트를 토큰화합니다.
일본어 텍스트로 구성된 string형 배열을 만듭니다.
str = [ "恋に悩み、苦しむ。" "恋の悩みで苦しむ。" "空に星が輝き、瞬いている。" "空の星が輝きを増している。"];
MecabOptions
객체를 만들고 'UserModel'
옵션을 사용하여 사용자 모델을 .dic
파일로 지정합니다.
options = mecabOptions('UserModel','myFile.dic')
options = MecabOptions with properties: Model: "C:\Program Files\MATLAB\R2023a\sys\share\dict-ipadic" UserModel: "myFile.dic" LemmaExtractor: @textanalytics.ja.mecabToLemma POSExtractor: @textanalytics.ja.mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER
'TokenizeMethod'
옵션과 함께 지정된 옵션을 사용하여 텍스트를 토큰화합니다.
documents = tokenizedDocument(str,'TokenizeMethod',options)
documents = 4×1 tokenizedDocument: 6 tokens: 恋 に 悩み 、 苦しむ 。 6 tokens: 恋 の 悩み で 苦しむ 。 10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。 10 tokens: 空 の 星 が 輝き を 増し て いる 。
버전 내역
R2019b에 개발됨
MATLAB 명령
다음 MATLAB 명령에 해당하는 링크를 클릭했습니다.
명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)