bertTokenizer

WordPiece BERT 토큰 추출기

R2023b 이후

페이지 내 모두 확장

설명

BERT(Bidirectional Encoder Representations from Transformers) 신경망 WordPiece 토큰 추출기는 텍스트 데이터를 정수 시퀀스로 매핑합니다.

생성

구문

tokenizer = bertTokenizer(vocabulary)

tokenizer = bertTokenizer(vocabulary,PropertyName=Value)

설명

tokenizer = bertTokenizer(vocabulary)는 지정된 단어집에 대한 bertTokenizer 객체를 만듭니다.

예제

tokenizer = bertTokenizer(vocabulary,PropertyName=Value)는 하나 이상의 이름-값 인수를 사용하여 추가 속성을 설정합니다.

입력 인수

모두 확장

`vocabulary` — 토큰 추출기 단어집
string형 배열 | 문자형 벡터로 구성된 셀형 배열

토큰 추출기 단어집으로, string형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

단어집에는 PaddingToken, StartToken, UnknownToken, SeparatorToken 속성의 값이 포함되어야 합니다.

데이터형: string | cell

속성

모두 확장

`IgnoreCase` — 대/소문자를 무시하는 플래그
`true` 또는 `1` (디폴트 값) | `false` 또는 `0`

대/소문자를 무시하는 플래그로, 1(true) 또는 0(false)으로 지정됩니다.

이 속성을 설정하려면 bertTokenizer 객체를 만들 때 대응되는 이름-값 인수를 사용하십시오. bertTokenizer 객체를 만든 후에는 이 속성은 읽기 전용입니다.

`StripAccents` — 악센트를 제거하는 플래그
`true` 또는 `1` (디폴트 값) | `false` 또는 `0`

악센트를 제거하는 플래그로, 1(true) 또는 0(false)으로 지정됩니다.

`ContextSize` — 문맥 크기
`512` (디폴트 값) | 양의 정수

문맥 크기로, 양의 정수로 지정됩니다.

문맥 크기는 토큰을 분할하거나 병합할 때 토큰 추출기가 처리하는 단어나 부분단어의 개수입니다. 문맥 크기가 크면 모델이 더 많은 주변 토큰을 고려할 수 있으므로 장거리 종속성을 캡처하는 데 유용하지만 동시에 계산 및 메모리 요구 사항이 늘어납니다.

`PaddingToken` — 채우기 토큰
`"[PAD]"` (디폴트 값) | string형 스칼라

채우기 토큰으로, string형 스칼라로 지정됩니다.

데이터형: char | string

`PaddingCode` — 채우기 코드
읽기 전용: 양의 정수

읽기 전용 속성입니다.

채우기 코드로, 양의 정수로 지정됩니다.

데이터형: double

`StartToken` — 시작 토큰
`"[CLS]"` (디폴트 값) | string형 스칼라

시작 토큰으로, string형 스칼라로 지정됩니다.

데이터형: char | string

`StartCode` — 시작 코드
읽기 전용: 양의 정수

읽기 전용 속성입니다.

시작 코드로, 양의 정수로 지정됩니다.

데이터형: double

`UnknownToken` — 알 수 없는 토큰
`"[UNK]"` (디폴트 값) | string형 스칼라

알 수 없는 토큰으로, string형 스칼라로 지정됩니다.

데이터형: char | string

`UnknownCode` — 알 수 없는 코드
읽기 전용: 양의 정수

읽기 전용 속성입니다.

알 수 없는 코드로, 양의 정수로 지정됩니다.

데이터형: double

`SeparatorToken` — 구분자 토큰
`"[SEP]"` (디폴트 값) | string형 스칼라

구분자 토큰으로, string형 스칼라로 지정됩니다.

데이터형: char | string

`SeparatorCode` — 구분자 코드
읽기 전용: 양의 정수

읽기 전용 속성입니다.

구분자 코드로, 양의 정수로 지정됩니다.

데이터형: double

객체 함수

`encode`	트랜스포머 신경망을 위해 텍스트 토큰화 및 인코딩
`decode`	토큰 코드를 토큰으로 변환
`encodeTokens`	Convert tokens to token codes
`subwordTokenize`	Tokenize text into subwords using BERT tokenizer
`wordTokenize`	토큰 추출기를 사용하여 텍스트를 단어로 토큰화

예제

모두 축소

BERT 토큰 추출기 만들기

라이브 스크립트 열기

단어 "math", "science", "engineering"으로 이루어진 단어집을 가진 BERT 토큰 추출기를 만듭니다. 채우기 토큰, 시작 토큰, 알 수 없는 토큰, 구분자 토큰으로 사용할 토큰을 포함합니다.

vocabulary = ["math" "science" "engineering" "[PAD]" "[CLS]" "[UNK]" "[SEP]"];
tokenizer = bertTokenizer(vocabulary)

tokenizer = 
  bertTokenizer with properties:

        IgnoreCase: 1
      StripAccents: 1
      PaddingToken: "[PAD]"
       PaddingCode: 4
        StartToken: "[CLS]"
         StartCode: 5
      UnknownToken: "[UNK]"
       UnknownCode: 6
    SeparatorToken: "[SEP]"
     SeparatorCode: 7
       ContextSize: 512

알고리즘

모두 확장

WordPiece 토큰화

WordPiece 토큰화 알고리즘[2]은 단어를 부분단어(subword) 단위로 분할하고 문자와 부분단어의 공통된 시퀀스를 단일 정수에 매핑합니다. 토큰화 시, 이 알고리즘은 OOV(단어집에 없는 단어)를 그에 대응하는 부분단어(subword)로 대체하므로 모델이 처음 보는 단어를 더 효과적으로 처리할 수 있습니다. 이 과정을 통해 일반 단어와 빈도가 낮은 단어를 더 잘 표현할 수 있는 부분단어 토큰 세트가 생성됩니다.

다음 단계는 WordPiece 토큰 추출기를 만드는 방법을 설명합니다.

단어집 초기화 — 데이터에서 고유한 문자로 구성된 초기 단어집을 만듭니다.
토큰 빈도 세기 — 훈련 데이터를 반복 처리하고 단어집에서 각 토큰의 빈도를 셉니다.
빈도가 가장 높은 쌍 병합 — 단어집에서 빈도가 가장 높은 토큰 쌍을 식별하고 이를 단일 토큰으로 병합합니다. 단어집을 적절하게 업데이트합니다.
빈도 세기 및 병합 반복 — 단어집이 미리 정의된 크기에 도달할 때까지 또는 토큰을 더 이상 병합할 수 없을 때까지 빈도를 세는 단계와 병합 단계를 반복합니다.

다음 단계는 WordPiece 토큰 추출기가 새로운 텍스트를 토큰화하는 방법을 설명합니다.

텍스트 분할 — 텍스트를 개별 단어로 분할합니다.
OOV 식별 — 사전 훈련된 단어집에 없는 OOV(단어집에 없는 단어)를 식별합니다.
OOV 대체 — OOV(단어집에 없는 단어)를 단어집에 있는, 그에 대응하는 부분단어로 대체합니다. 예를 들어 OOV(단어집에 없는 단어) 토큰이 단어집 토큰으로 시작하는지 반복적으로 확인합니다.

참고 문헌

[1] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding" Preprint, submitted May 24, 2019. https://doi.org/10.48550/arXiv.1810.04805.

[2] Wu, Yonghui, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun et al. "Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation." Preprint, submitted October 8, 2016. https://doi.org/10.48550/arXiv.1609.08144

버전 내역

R2023b에 개발됨

참고 항목

bertTokenizer

설명

생성

구문

설명

입력 인수

vocabulary — 토큰 추출기 단어집 string형 배열 | 문자형 벡터로 구성된 셀형 배열

속성

IgnoreCase — 대/소문자를 무시하는 플래그 true 또는 1 (디폴트 값) | false 또는 0

StripAccents — 악센트를 제거하는 플래그 true 또는 1 (디폴트 값) | false 또는 0

ContextSize — 문맥 크기 512 (디폴트 값) | 양의 정수

PaddingToken — 채우기 토큰 "[PAD]" (디폴트 값) | string형 스칼라

PaddingCode — 채우기 코드 읽기 전용: 양의 정수

StartToken — 시작 토큰 "[CLS]" (디폴트 값) | string형 스칼라

StartCode — 시작 코드 읽기 전용: 양의 정수

UnknownToken — 알 수 없는 토큰 "[UNK]" (디폴트 값) | string형 스칼라

UnknownCode — 알 수 없는 코드 읽기 전용: 양의 정수

SeparatorToken — 구분자 토큰 "[SEP]" (디폴트 값) | string형 스칼라

SeparatorCode — 구분자 코드 읽기 전용: 양의 정수

객체 함수

예제

BERT 토큰 추출기 만들기

알고리즘

WordPiece 토큰화

참고 문헌

버전 내역

참고 항목

도움말 항목

`vocabulary` — 토큰 추출기 단어집
string형 배열 | 문자형 벡터로 구성된 셀형 배열

`IgnoreCase` — 대/소문자를 무시하는 플래그
`true` 또는 `1` (디폴트 값) | `false` 또는 `0`

`StripAccents` — 악센트를 제거하는 플래그
`true` 또는 `1` (디폴트 값) | `false` 또는 `0`

`ContextSize` — 문맥 크기
`512` (디폴트 값) | 양의 정수

`PaddingToken` — 채우기 토큰
`"[PAD]"` (디폴트 값) | string형 스칼라

`PaddingCode` — 채우기 코드
읽기 전용: 양의 정수

`StartToken` — 시작 토큰
`"[CLS]"` (디폴트 값) | string형 스칼라

`StartCode` — 시작 코드
읽기 전용: 양의 정수

`UnknownToken` — 알 수 없는 토큰
`"[UNK]"` (디폴트 값) | string형 스칼라

`UnknownCode` — 알 수 없는 코드
읽기 전용: 양의 정수

`SeparatorToken` — 구분자 토큰
`"[SEP]"` (디폴트 값) | string형 스칼라

`SeparatorCode` — 구분자 코드
읽기 전용: 양의 정수