bertTokenizer
설명
BERT(Bidirectional Encoder Representations from Transformers) 신경망 WordPiece 토큰 추출기는 텍스트 데이터를 정수 시퀀스로 매핑합니다.
생성
설명
는 지정된 단어집에 대한 tokenizer
= bertTokenizer(vocabulary
)bertTokenizer
객체를 만듭니다.
는 하나 이상의 이름-값 인수를 사용하여 추가 속성을 설정합니다.tokenizer
= bertTokenizer(vocabulary
,PropertyName=Value
)
입력 인수
속성
객체 함수
encode | 트랜스포머 신경망을 위해 텍스트 토큰화 및 인코딩 |
decode | 토큰 코드를 토큰으로 변환 |
encodeTokens | Convert tokens to token codes |
subwordTokenize | Tokenize text into subwords using BERT tokenizer |
wordTokenize | 토큰 추출기를 사용하여 텍스트를 단어로 토큰화 |
예제
알고리즘
참고 문헌
[1] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding" Preprint, submitted May 24, 2019. https://doi.org/10.48550/arXiv.1810.04805.
[2] Wu, Yonghui, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun et al. "Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation." Preprint, submitted October 8, 2016. https://doi.org/10.48550/arXiv.1609.08144
버전 내역
R2023b에 개발됨
참고 항목
bpeTokenizer
| bert
| bertDocumentClassifier
| encode
| decode
| encodeTokens
| subwordTokenize
| wordTokenize
도움말 항목
- BERT 문서 분류기 훈련시키기
- 딥러닝을 사용하여 텍스트 데이터 분류하기
- 분류를 위한 간단한 텍스트 모델 만들기
- 토픽 모델을 사용하여 텍스트 데이터 분석하기
- 다단어 구문을 사용하여 텍스트 데이터 분석하기
- 딥러닝을 사용한 시퀀스 분류 (Deep Learning Toolbox)
- MATLAB의 딥러닝 (Deep Learning Toolbox)