주요 콘텐츠

bertTokenizer

WordPiece BERT 토큰 추출기

R2023b 이후

    설명

    BERT(Bidirectional Encoder Representations from Transformers) 신경망 WordPiece 토큰 추출기는 텍스트 데이터를 정수 시퀀스로 매핑합니다.

    생성

    설명

    tokenizer = bertTokenizer(vocabulary)는 지정된 단어집에 대한 bertTokenizer 객체를 만듭니다.

    예제

    tokenizer = bertTokenizer(vocabulary,PropertyName=Value)는 하나 이상의 이름-값 인수를 사용하여 추가 속성을 설정합니다.

    입력 인수

    모두 확장

    토큰 추출기 단어집으로, string형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

    단어집에는 PaddingToken, StartToken, UnknownToken, SeparatorToken 속성의 값이 포함되어야 합니다.

    데이터형: string | cell

    속성

    모두 확장

    대/소문자를 무시하는 플래그로, 1(true) 또는 0(false)으로 지정됩니다.

    이 속성을 설정하려면 bertTokenizer 객체를 만들 때 대응되는 이름-값 인수를 사용하십시오. bertTokenizer 객체를 만든 후에는 이 속성은 읽기 전용입니다.

    악센트를 제거하는 플래그로, 1(true) 또는 0(false)으로 지정됩니다.

    이 속성을 설정하려면 bertTokenizer 객체를 만들 때 대응되는 이름-값 인수를 사용하십시오. bertTokenizer 객체를 만든 후에는 이 속성은 읽기 전용입니다.

    문맥 크기로, 양의 정수로 지정됩니다.

    문맥 크기는 토큰을 분할하거나 병합할 때 토큰 추출기가 처리하는 단어나 부분단어의 개수입니다. 문맥 크기가 크면 모델이 더 많은 주변 토큰을 고려할 수 있으므로 장거리 종속성을 캡처하는 데 유용하지만 동시에 계산 및 메모리 요구 사항이 늘어납니다.

    이 속성을 설정하려면 bertTokenizer 객체를 만들 때 대응되는 이름-값 인수를 사용하십시오. bertTokenizer 객체를 만든 후에는 이 속성은 읽기 전용입니다.

    데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

    채우기 토큰으로, string형 스칼라로 지정됩니다.

    이 속성을 설정하려면 bertTokenizer 객체를 만들 때 대응되는 이름-값 인수를 사용하십시오. bertTokenizer 객체를 만든 후에는 이 속성은 읽기 전용입니다.

    데이터형: char | string

    읽기 전용 속성입니다.

    채우기 코드로, 양의 정수로 지정됩니다.

    데이터형: double

    시작 토큰으로, string형 스칼라로 지정됩니다.

    이 속성을 설정하려면 bertTokenizer 객체를 만들 때 대응되는 이름-값 인수를 사용하십시오. bertTokenizer 객체를 만든 후에는 이 속성은 읽기 전용입니다.

    데이터형: char | string

    읽기 전용 속성입니다.

    시작 코드로, 양의 정수로 지정됩니다.

    데이터형: double

    알 수 없는 토큰으로, string형 스칼라로 지정됩니다.

    이 속성을 설정하려면 bertTokenizer 객체를 만들 때 대응되는 이름-값 인수를 사용하십시오. bertTokenizer 객체를 만든 후에는 이 속성은 읽기 전용입니다.

    데이터형: char | string

    읽기 전용 속성입니다.

    알 수 없는 코드로, 양의 정수로 지정됩니다.

    데이터형: double

    구분자 토큰으로, string형 스칼라로 지정됩니다.

    이 속성을 설정하려면 bertTokenizer 객체를 만들 때 대응되는 이름-값 인수를 사용하십시오. bertTokenizer 객체를 만든 후에는 이 속성은 읽기 전용입니다.

    데이터형: char | string

    읽기 전용 속성입니다.

    구분자 코드로, 양의 정수로 지정됩니다.

    데이터형: double

    객체 함수

    encode트랜스포머 신경망을 위해 텍스트 토큰화 및 인코딩
    decode토큰 코드를 토큰으로 변환
    encodeTokensConvert tokens to token codes
    subwordTokenizeTokenize text into subwords using BERT tokenizer
    wordTokenize토큰 추출기를 사용하여 텍스트를 단어로 토큰화

    예제

    모두 축소

    단어 "math", "science", "engineering"으로 이루어진 단어집을 가진 BERT 토큰 추출기를 만듭니다. 채우기 토큰, 시작 토큰, 알 수 없는 토큰, 구분자 토큰으로 사용할 토큰을 포함합니다.

    vocabulary = ["math" "science" "engineering" "[PAD]" "[CLS]" "[UNK]" "[SEP]"];
    tokenizer = bertTokenizer(vocabulary)
    tokenizer = 
      bertTokenizer with properties:
    
            IgnoreCase: 1
          StripAccents: 1
          PaddingToken: "[PAD]"
           PaddingCode: 4
            StartToken: "[CLS]"
             StartCode: 5
          UnknownToken: "[UNK]"
           UnknownCode: 6
        SeparatorToken: "[SEP]"
         SeparatorCode: 7
           ContextSize: 512
    
    

    알고리즘

    모두 확장

    참고 문헌

    [1] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding" Preprint, submitted May 24, 2019. https://doi.org/10.48550/arXiv.1810.04805.

    [2] Wu, Yonghui, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun et al. "Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation." Preprint, submitted October 8, 2016. https://doi.org/10.48550/arXiv.1609.08144

    버전 내역

    R2023b에 개발됨