mecabOptions

MeCab 토큰화 옵션

페이지 내 모두 확장

설명

mecabOptions 객체는 한국어 텍스트와 일본어 텍스트를 토큰화하기 위한 추가 옵션을 지정합니다.

지정된 MeCab 토큰화 옵션을 사용하여 토큰화하려면 tokenizedDocument의 'TokenizeMethod' 옵션을 사용하십시오.

생성

구문

options = mecabOptions

options = mecabOptions(PropertyName=Value)

설명

options = mecabOptions는 일본어 토큰화를 위한 디폴트 값으로 MeCab 토큰화 옵션 집합을 만듭니다.

예제

options = mecabOptions(PropertyName=Value)는 하나 이상의 이름-값 쌍의 인수를 사용하여 추가로 속성을 설정합니다.

예제

속성

모두 확장

`Model` — 훈련된 모델의 경로
string형 스칼라 | 문자형 벡터

훈련된 모델(MeCab 사전)의 경로로, string형 스칼라 또는 문자형 벡터로 지정됩니다.

디폴트 값은 일본어 토큰화를 위한 내부 사전의 경로입니다.

예: "C:\myDict"

데이터형: char | string

`UserModel` — 모델 확장자가 포함된 파일
`""` (디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

모델 확장자가 포함된 파일(MeCab 사용자 사전 .dic 파일)로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

예: "C:\myFile.dic"

데이터형: char | string | cell

`LemmaExtractor` — MeCab 회신에서 표제어를 추출하는 함수
`@textanalytics.ja.mecabToLemma` (디폴트 값) | 함수 핸들

MeCab 회신에서 표제어를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 lemmata = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

Feature – words와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).
PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 lemmata는 words와 동일한 크기의 string형 배열로, 추출된 표제어를 포함합니다.

디폴트 표제어 추출기는 textanalytics.ja.mecabToLemma 함수입니다.

데이터형: function_handle

`POSExtractor` — MeCab 회신에서 품사 정보를 추출하는 함수
`@textanalytics.ja.mecabToPOS` (디폴트 값) | 함수 핸들

MeCab 회신에서 품사 정보를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 posTags = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

Feature – words와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).
PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 posTags는 words와 동일한 크기의 categorical형 배열로, 다음 범주에서 추출된 품사 태그를 포함합니다.

adjective
adposition
adverb
auxiliary-verb
coord-conjunction
determiner
interjection
noun
numeral
pronoun
proper-noun
punctuation
symbol
verb
other

디폴트 품사 정보 추출기는 textanalytics.ja.mecabToPOS 함수입니다.

데이터형: function_handle

`NERExtractor` — MeCab 회신에서 개체명 정보를 추출하는 함수
`@textanalytics.ja.mecabToNER` (디폴트 값) | 함수 핸들

MeCab 회신에서 개체명 정보를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 entities = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

Feature – words와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).
PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 entities는 words와 동일한 크기의 categorical형 배열로, 다음 범주에서 추출된 개체를 포함합니다.

non-entity
person
organization
location
other

디폴트 품사 정보 추출기는 textanalytics.ja.mecabToNER 함수입니다.

데이터형: function_handle

예제

모두 축소

MeCab options 객체 만들기

라이브 스크립트 열기

일본어 토큰화를 위한 디폴트 옵션을 포함하는 MecabOptions 객체를 만듭니다.

options = mecabOptions

options = 
  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2023a\sys\share\dict-ipadic"
         UserModel: ""
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

토큰화를 위한 MeCab 사용자 사전 지정하기

라이브 스크립트 열기

사용자 지정 MeCab 옵션을 사용하여 일본어 텍스트를 토큰화합니다.

일본어 텍스트로 구성된 string형 배열을 만듭니다.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];

MecabOptions 객체를 만들고 'UserModel' 옵션을 사용하여 사용자 모델을 .dic 파일로 지정합니다.

options = mecabOptions('UserModel','myFile.dic')

options = 
  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2023a\sys\share\dict-ipadic"
         UserModel: "myFile.dic"
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

'TokenizeMethod' 옵션과 함께 지정된 옵션을 사용하여 텍스트를 토큰화합니다.

documents = tokenizedDocument(str,'TokenizeMethod',options)

documents = 
  4×1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。

버전 내역

R2019b에 개발됨

참고 항목

mecabOptions

설명

생성

구문

설명

속성

Model — 훈련된 모델의 경로 string형 스칼라 | 문자형 벡터

UserModel — 모델 확장자가 포함된 파일 "" (디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

LemmaExtractor — MeCab 회신에서 표제어를 추출하는 함수 @textanalytics.ja.mecabToLemma (디폴트 값) | 함수 핸들

POSExtractor — MeCab 회신에서 품사 정보를 추출하는 함수 @textanalytics.ja.mecabToPOS (디폴트 값) | 함수 핸들

NERExtractor — MeCab 회신에서 개체명 정보를 추출하는 함수 @textanalytics.ja.mecabToNER (디폴트 값) | 함수 핸들

예제

MeCab options 객체 만들기

토큰화를 위한 MeCab 사용자 사전 지정하기

버전 내역

참고 항목

도움말 항목

`Model` — 훈련된 모델의 경로
string형 스칼라 | 문자형 벡터

`UserModel` — 모델 확장자가 포함된 파일
`""` (디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

`LemmaExtractor` — MeCab 회신에서 표제어를 추출하는 함수
`@textanalytics.ja.mecabToLemma` (디폴트 값) | 함수 핸들

`POSExtractor` — MeCab 회신에서 품사 정보를 추출하는 함수
`@textanalytics.ja.mecabToPOS` (디폴트 값) | 함수 핸들

`NERExtractor` — MeCab 회신에서 개체명 정보를 추출하는 함수
`@textanalytics.ja.mecabToNER` (디폴트 값) | 함수 핸들