Main Content

encode

문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩

설명

토큰화된 문서로 구성된 배열을 bag-of-words 모델 또는 bag-of-n-grams 모델에 따라 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩하려면 encode를 사용합니다. 문서를 벡터 또는 단어 인덱스로 인코딩하려면 wordEncoding 객체를 사용합니다.

예제

counts = encode(bag,documents)는 bag-of-words 모델 또는 bag-of-n-grams 모델 bag에 기반하여 documents에 대한 빈도 수로 구성된 행렬을 반환합니다.

예제

counts = encode(bag,words)는 단어 목록에 대한 빈도 수로 구성된 행렬을 반환합니다.

예제

counts = encode(___,Name,Value)는 하나 이상의 이름-값 쌍의 인수를 사용하여 옵션을 추가로 지정합니다.

예제

모두 축소

문서로 구성된 배열을 단어 개수로 구성된 행렬로 인코딩합니다.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
bag = bagOfWords(documents) 
bag = 
  bagOfWords with properties:

          Counts: [2x7 double]
      Vocabulary: ["an"    "example"    "of"    "a"    "short"    "sentence"    "second"]
        NumWords: 7
    NumDocuments: 2

documents = tokenizedDocument([
    "a new sentence" 
    "a second new sentence"])
documents = 
  2x1 tokenizedDocument:

    3 tokens: a new sentence
    4 tokens: a second new sentence

단어 개수로 구성된 행렬로 인코딩된 문서를 표시합니다. 단어 "new"는 bag에 나타나지 않으므로 계산되지 않습니다.

counts = encode(bag,documents);
full(counts)
ans = 2×7

     0     0     0     1     0     1     0
     0     0     0     1     0     1     1

열은 bag-of-words 모델의 단어집에 해당합니다.

bag.Vocabulary
ans = 1x7 string
    "an"    "example"    "of"    "a"    "short"    "sentence"    "second"

단어로 구성된 배열을 단어 개수로 구성된 벡터로 인코딩합니다.

documents = tokenizedDocument([
    "an example of a short sentence"
    "a second short sentence"]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [2x7 double]
      Vocabulary: ["an"    "example"    "of"    "a"    "short"    "sentence"    "second"]
        NumWords: 7
    NumDocuments: 2

words = ["another" "example" "of" "a" "short" "example" "sentence"];
counts = encode(bag,words)
counts = 
   (1,2)        2
   (1,3)        1
   (1,4)        1
   (1,5)        1
   (1,6)        1

문서로 구성된 배열을 단어 개수로 구성된 행렬로 인코딩하고, 문서를 열 방향으로 지정합니다.

documents = tokenizedDocument([
    "an example of a short sentence"
    "a second short sentence"]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [2x7 double]
      Vocabulary: ["an"    "example"    "of"    "a"    "short"    "sentence"    "second"]
        NumWords: 7
    NumDocuments: 2

documents = tokenizedDocument([
    "a new sentence"
    "a second new sentence"])
documents = 
  2x1 tokenizedDocument:

    3 tokens: a new sentence
    4 tokens: a second new sentence

단어 개수로 구성된 행렬로 인코딩된 문서를 표시하고, 문서를 열 방향으로 지정합니다. 단어 "new"는 bag에 나타나지 않으므로 계산되지 않습니다.

counts = encode(bag,documents,'DocumentsIn','columns');
full(counts)
ans = 7×2

     0     0
     0     0
     0     0
     1     1
     0     0
     1     1
     0     1

입력 인수

모두 축소

입력 bag-of-words 모델 또는 bag-of-n-grams 모델로, bagOfWords 객체 또는 bagOfNgrams 객체로 지정됩니다.

입력 문서로, tokenizedDocument 배열, 단어로 구성된 string형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다. documents가 string형 배열 또는 문자형 벡터로 구성된 셀형 배열인 경우 이는 단일 문서를 나타내고 각 요소가 단어인 행 벡터여야 합니다.

문서가 제대로 인코딩되도록 하려면 입력 모델을 만드는 데 사용된 문서와 동일한 단계를 사용하여 입력 문서를 전처리해야 합니다. 텍스트 데이터를 전처리하는 함수를 만드는 방법을 보여주는 예제는 분석할 텍스트 데이터 준비하기 항목을 참조하십시오.

입력 단어로, string형 벡터, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다. words를 문자형 벡터로 지정할 경우 이 함수는 인수를 단일 단어로 처리합니다.

데이터형: string | char | cell

이름-값 인수

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 각 이름과 값을 쉼표로 구분하고 Name을 따옴표로 묶으십시오.

예: 'DocumentsIn','rows'는 출력 문서의 방향을 행으로 지정합니다.

빈도 수 행렬에서 출력 문서의 방향으로, 'DocumentsIn'과 함께 다음 중 하나가 쉼표로 구분되어 지정됩니다.

  • 'rows' - 행이 문서에 대응되는, 빈도 수로 구성된 행렬을 반환합니다.

  • 'columns' - 열이 문서에 대응되는, 빈도 수로 구성된 전치 행렬을 반환합니다.

데이터형: char

출력을 셀형 배열로 반환하도록 하는 표시자로, 'ForceCellOutput'과 함께 true 또는 false로 구성된 쌍이 쉼표로 구분되어 지정됩니다.

데이터형: logical

출력 인수

모두 축소

단어 개수 또는 n-gram 개수로, 음이 아닌 정수로 구성된 희소 행렬 또는 희소 행렬로 구성된 셀형 배열로 반환됩니다.

bag이 스칼라가 아닌 배열이거나 'ForceCellOutput'true인 경우 이 함수는 출력을 희소 행렬로 구성된 셀형 배열로 반환합니다. 셀형 배열의 각 요소는 해당하는 bag 요소의 단어 또는 n-gram 개수로 구성된 행렬입니다.

버전 내역

R2017b에 개발됨