encode
구문
설명
[
은 지정된 토큰 추출기를 사용하여 tokenCodes
,segments
] = encode(tokenizer
,str
)str
의 텍스트를 토큰화하고 인코딩한 다음 토큰 코드와 세그먼트를 반환합니다. 이 구문은 채우기 토큰, 시작 토큰, 알 수 없는 토큰, 구분자 토큰을 자동으로 입력에 추가합니다.
[
는 문장 쌍 tokenCodes
,segments
] = encode(tokenizer
,str1,str2
)str1,str2
를 토큰화하고 인코딩합니다. 이 구문은 채우기 토큰, 시작 토큰, 알 수 없는 토큰, 구분자 토큰을 자동으로 입력에 추가합니다.
___ = encode(___,AddSpecialTokens=
는 채우기 토큰, 시작 토큰, 알 수 없는 토큰, 구분자 토큰을 자동으로 입력에 추가할지 여부를 지정합니다.tf
)
예제
입력 인수
출력 인수
알고리즘
참고 문헌
[1] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding" Preprint, submitted May 24, 2019. https://doi.org/10.48550/arXiv.1810.04805.
[2] Wu, Yonghui, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun et al. "Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation." Preprint, submitted October 8, 2016. https://doi.org/10.48550/arXiv.1609.08144
버전 내역
R2023b에 개발됨
참고 항목
bertTokenizer
| bpeTokenizer
| bert
| bertDocumentClassifier
| decode
| encodeTokens
| subwordTokenize
| wordTokenize
도움말 항목
- BERT 문서 분류기 훈련시키기
- 딥러닝을 사용하여 텍스트 데이터 분류하기
- 분류를 위한 간단한 텍스트 모델 만들기
- 토픽 모델을 사용하여 텍스트 데이터 분석하기
- 다단어 구문을 사용하여 텍스트 데이터 분석하기
- 딥러닝을 사용한 시퀀스 분류 (Deep Learning Toolbox)
- MATLAB의 딥러닝 (Deep Learning Toolbox)