encode
구문
설명
[은 지정된 토큰 추출기를 사용하여 tokenCodes,segments] = encode(tokenizer,str)str의 텍스트를 토큰화하고 인코딩한 다음 토큰 코드와 세그먼트를 반환합니다. 이 구문은 채우기 토큰, 시작 토큰, 알 수 없는 토큰, 구분자 토큰을 자동으로 입력에 추가합니다.
[는 문장 쌍 tokenCodes,segments] = encode(tokenizer,str1,str2)str1,str2를 토큰화하고 인코딩합니다. 이 구문은 채우기 토큰, 시작 토큰, 알 수 없는 토큰, 구분자 토큰을 자동으로 입력에 추가합니다.
___ = encode(___,AddSpecialTokens=는 채우기 토큰, 시작 토큰, 알 수 없는 토큰, 구분자 토큰을 자동으로 입력에 추가할지 여부를 지정합니다.tf)
예제
입력 인수
출력 인수
알고리즘
참고 문헌
[1] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding" Preprint, submitted May 24, 2019. https://doi.org/10.48550/arXiv.1810.04805.
[2] Wu, Yonghui, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun et al. "Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation." Preprint, submitted October 8, 2016. https://doi.org/10.48550/arXiv.1609.08144
버전 내역
R2023b에 개발됨
참고 항목
bertTokenizer | bpeTokenizer | bert | bertDocumentClassifier | decode | encodeTokens | subwordTokenize | wordTokenize
도움말 항목
- BERT 문서 분류기 훈련시키기
- 딥러닝을 사용하여 텍스트 데이터 분류하기
- 분류를 위한 간단한 텍스트 모델 만들기
- 토픽 모델을 사용하여 텍스트 데이터 분석하기
- 다단어 구문을 사용하여 텍스트 데이터 분석하기
- 딥러닝을 사용한 시퀀스 분류 (Deep Learning Toolbox)
- MATLAB의 딥러닝 (Deep Learning Toolbox)