주요 콘텐츠

wordTokenize

토큰 추출기를 사용하여 텍스트를 단어로 토큰화

R2023b 이후

    설명

    words = wordTokenize(tokenizer,str)은 지정된 토큰 추출기를 사용하여 str의 텍스트를 단어로 토큰화합니다.

    예제

    예제

    모두 축소

    bert 함수를 사용하여, 사전 훈련된 BERT-Base 신경망과 그에 대응하는 토큰 추출기를 불러옵니다.

    [net,tokenizer] = bert;

    토큰 추출기를 표시합니다.

    tokenizer
    tokenizer = 
      bertTokenizer with properties:
    
            IgnoreCase: 1
          StripAccents: 1
          PaddingToken: "[PAD]"
           PaddingCode: 1
            StartToken: "[CLS]"
             StartCode: 102
          UnknownToken: "[UNK]"
           UnknownCode: 101
        SeparatorToken: "[SEP]"
         SeparatorCode: 103
           ContextSize: 512
    
    

    wordTokenize 함수를 사용하여 텍스트 "Bidirectional Encoder Representations from Transformers"를 단어로 토큰화합니다.

    str = "Bidirectional Encoder Representations from Transformers";
    words = wordTokenize(tokenizer,str)
    words = 1×1 cell array
        {["Bidirectional"    "Encoder"    "Representations"    "from"    "Transformers"]}
    
    

    입력 인수

    모두 축소

    토큰 추출기로, bertTokenizer 객체 또는 bpeTokenizer 객체로 지정됩니다.

    입력 텍스트로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

    예: ["An example of a short sentence."; "A second short sentence."]

    데이터형: string | char | cell

    출력 인수

    모두 축소

    토큰화된 단어로, string형 배열로 구성된 셀형 배열로 반환됩니다.

    데이터형: cell

    알고리즘

    모두 축소

    참고 문헌

    [1] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding" Preprint, submitted May 24, 2019. https://doi.org/10.48550/arXiv.1810.04805.

    [2] Wu, Yonghui, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun et al. "Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation." Preprint, submitted October 8, 2016. https://doi.org/10.48550/arXiv.1609.08144

    버전 내역

    R2023b에 개발됨