Main Content

mecabOptions

MeCab 토큰화 옵션

설명

mecabOptions 객체는 한국어 텍스트와 일본어 텍스트를 토큰화하기 위한 추가 옵션을 지정합니다.

지정된 MeCab 토큰화 옵션을 사용하여 토큰화하려면 tokenizedDocument'TokenizeMethod' 옵션을 사용하십시오.

생성

설명

options = mecabOptions는 일본어 토큰화를 위한 디폴트 값으로 MeCab 토큰화 옵션 집합을 만듭니다.

예제

options = mecabOptions(Name,Value)는 하나 이상의 이름-값 쌍의 인수를 사용하여 추가로 속성을 설정합니다.

예제

속성

모두 확장

훈련된 모델(MeCab 사전)의 경로로, string형 스칼라 또는 문자형 벡터로 지정됩니다.

디폴트 값은 일본어 토큰화를 위한 내부 사전의 경로입니다.

예: "C:\myDict"

데이터형: char | string

모델 확장자가 포함된 파일(MeCab 사용자 사전 .dic 파일)로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

예: "C:\myFile.dic"

데이터형: char | string | cell

MeCab 회신에서 표제어를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 lemmata = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

  • Featurewords와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).

  • PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 lemmatawords와 동일한 크기의 string형 배열로, 추출된 표제어를 포함합니다.

디폴트 표제어 추출기는 textanalytics.ja.mecabToLemma 함수입니다.

데이터형: function_handle

MeCab 회신에서 품사 정보를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 posTags = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

  • Featurewords와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).

  • PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 posTagswords와 동일한 크기의 categorical형 배열로, 다음 범주에서 추출된 품사 태그를 포함합니다.

  • adjective

  • adposition

  • adverb

  • auxiliary-verb

  • coord-conjunction

  • determiner

  • interjection

  • noun

  • numeral

  • pronoun

  • proper-noun

  • punctuation

  • symbol

  • verb

  • other

디폴트 품사 정보 추출기는 textanalytics.ja.mecabToPOS 함수입니다.

데이터형: function_handle

MeCab 회신에서 개체명 정보를 추출하는 함수로, 함수 핸들로 지정됩니다.

이 함수의 형식은 entities = fun(words,info)여야 합니다. 여기서 words는 토큰으로 구성된 string형 벡터이고, info는 다음 필드를 갖는 구조체입니다.

  • Featurewords와 동일한 크기의 토큰으로 구성된 string형 벡터(분할된 토큰 없이 MeCab 출력 라인을 ChaSen 형식으로 포함함).

  • PartOfSpeech – 사전 내에서 품사 분류에 사용되는 숫자형 코드.

출력값 entitieswords와 동일한 크기의 categorical형 배열로, 다음 범주에서 추출된 개체를 포함합니다.

  • non-entity

  • person

  • organization

  • location

  • other

디폴트 품사 정보 추출기는 textanalytics.ja.mecabToNER 함수입니다.

데이터형: function_handle

예제

모두 축소

일본어 토큰화를 위한 디폴트 옵션을 포함하는 MecabOptions 객체를 만듭니다.

options = mecabOptions
options = 
  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2023a\sys\share\dict-ipadic"
         UserModel: ""
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

사용자 지정 MeCab 옵션을 사용하여 일본어 텍스트를 토큰화합니다.

일본어 텍스트로 구성된 string형 배열을 만듭니다.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];

MecabOptions 객체를 만들고 'UserModel' 옵션을 사용하여 사용자 모델을 .dic 파일로 지정합니다.

options = mecabOptions('UserModel','myFile.dic')
options = 
  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2023a\sys\share\dict-ipadic"
         UserModel: "myFile.dic"
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

'TokenizeMethod' 옵션과 함께 지정된 옵션을 사용하여 텍스트를 토큰화합니다.

documents = tokenizedDocument(str,'TokenizeMethod',options)
documents = 
  4×1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。

버전 내역

R2019b에 개발됨