Main Content

mecabOptions

MeCab 토큰화 옵션

R2019b 이후

설명

mecabOptions 객체는 한국어 텍스트와 일본어 텍스트를 토큰화하기 위한 추가 옵션을 지정합니다.

지정된 MeCab 토큰화 옵션을 사용하여 토큰화하려면 tokenizedDocument'TokenizeMethod' 옵션을 사용하십시오.

생성

설명

예제

options = mecabOptions는 일본어 토큰화를 위한 디폴트 값으로 MeCab 토큰화 옵션 집합을 만듭니다.

예제

options = mecabOptions(Name,Value)는 하나 이상의 이름-값 쌍의 인수를 사용하여 추가로 속성을 설정합니다.

속성

모두 확장

훈련된 모델(MeCab 사전)의 경로로, string형 스칼라 또는 문자형 벡터로 지정됩니다.

디폴트 값은 일본어 토큰화를 위한 내부 사전의 경로입니다.

예: "C:\myDict"

데이터형: char | string

모델 확장자가 포함된 파일(MeCab 사용자 사전 .dic 파일)로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

예: "C:\myFile.dic"

데이터형: char | string | cell

MeCab 회신에서 표제어를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 lemmata = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

  • Featurewords와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).

  • PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 lemmatawords와 동일한 크기의 string형 배열로, 추출된 표제어를 포함합니다.

디폴트 표제어 추출기는 textanalytics.ja.mecabToLemma 함수입니다.

데이터형: function_handle

MeCab 회신에서 품사 정보를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 posTags = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

  • Featurewords와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).

  • PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 posTagswords와 동일한 크기의 categorical형 배열로, 다음 범주에서 추출된 품사 태그를 포함합니다.

  • adjective

  • adposition

  • adverb

  • auxiliary-verb

  • coord-conjunction

  • determiner

  • interjection

  • noun

  • numeral

  • pronoun

  • proper-noun

  • punctuation

  • symbol

  • verb

  • other

디폴트 품사 정보 추출기는 textanalytics.ja.mecabToPOS 함수입니다.

데이터형: function_handle

MeCab 회신에서 명명된 엔터티 정보를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 entities = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

  • Featurewords와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).

  • PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 entitieswords와 동일한 크기의 categorical형 배열로, 다음 범주에서 추출된 엔터티를 포함합니다.

  • non-entity

  • person

  • organization

  • location

  • other

디폴트 품사 정보 추출기는 textanalytics.ja.mecabToNER 함수입니다.

데이터형: function_handle

예제

모두 축소

일본어 토큰화를 위한 디폴트 옵션을 포함하는 MecabOptions 객체를 만듭니다.

options = mecabOptions
options = 
  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2023a\sys\share\dict-ipadic"
         UserModel: ""
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

사용자 지정 MeCab 옵션을 사용하여 일본어 텍스트를 토큰화합니다.

일본어 텍스트로 구성된 string형 배열을 만듭니다.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];

MecabOptions 객체를 만들고 'UserModel' 옵션을 사용하여 사용자 모델을 .dic 파일로 지정합니다.

options = mecabOptions('UserModel','myFile.dic')
options = 
  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2023a\sys\share\dict-ipadic"
         UserModel: "myFile.dic"
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

'TokenizeMethod' 옵션과 함께 지정된 옵션을 사용하여 텍스트를 토큰화합니다.

documents = tokenizedDocument(str,'TokenizeMethod',options)
documents = 
  4×1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。

버전 내역

R2019b에 개발됨