이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
encode
문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩
설명
토큰화된 문서로 구성된 배열을 bag-of-words 모델 또는 bag-of-n-grams 모델에 따라 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩하려면 encode
를 사용합니다. 문서를 벡터 또는 단어 인덱스로 인코딩하려면 wordEncoding
객체를 사용합니다.
예제
문서를 단어 개수 행렬로 인코딩하기
문서로 구성된 배열을 단어 개수로 구성된 행렬로 인코딩합니다.
documents = tokenizedDocument([ "an example of a short sentence" "a second short sentence"]); bag = bagOfWords(documents)
bag = bagOfWords with properties: Counts: [2x7 double] Vocabulary: ["an" "example" "of" "a" "short" "sentence" "second"] NumWords: 7 NumDocuments: 2
documents = tokenizedDocument([ "a new sentence" "a second new sentence"])
documents = 2x1 tokenizedDocument: 3 tokens: a new sentence 4 tokens: a second new sentence
단어 개수로 구성된 행렬로 인코딩된 문서를 표시합니다. 단어 "new"는 bag
에 나타나지 않으므로 계산되지 않습니다.
counts = encode(bag,documents); full(counts)
ans = 2×7
0 0 0 1 0 1 0
0 0 0 1 0 1 1
열은 bag-of-words 모델의 단어집에 해당합니다.
bag.Vocabulary
ans = 1x7 string
"an" "example" "of" "a" "short" "sentence" "second"
단어를 단어 개수 벡터로 인코딩하기
단어로 구성된 배열을 단어 개수로 구성된 벡터로 인코딩합니다.
documents = tokenizedDocument([ "an example of a short sentence" "a second short sentence"]); bag = bagOfWords(documents)
bag = bagOfWords with properties: Counts: [2x7 double] Vocabulary: ["an" "example" "of" "a" "short" "sentence" "second"] NumWords: 7 NumDocuments: 2
words = ["another" "example" "of" "a" "short" "example" "sentence"]; counts = encode(bag,words)
counts = (1,2) 2 (1,3) 1 (1,4) 1 (1,5) 1 (1,6) 1
열 방향의 출력 문서 단어 개수
문서로 구성된 배열을 단어 개수로 구성된 행렬로 인코딩하고, 문서를 열 방향으로 지정합니다.
documents = tokenizedDocument([ "an example of a short sentence" "a second short sentence"]); bag = bagOfWords(documents)
bag = bagOfWords with properties: Counts: [2x7 double] Vocabulary: ["an" "example" "of" "a" "short" "sentence" "second"] NumWords: 7 NumDocuments: 2
documents = tokenizedDocument([ "a new sentence" "a second new sentence"])
documents = 2x1 tokenizedDocument: 3 tokens: a new sentence 4 tokens: a second new sentence
단어 개수로 구성된 행렬로 인코딩된 문서를 표시하고, 문서를 열 방향으로 지정합니다. 단어 "new"는 bag
에 나타나지 않으므로 계산되지 않습니다.
counts = encode(bag,documents,'DocumentsIn','columns'); full(counts)
ans = 7×2
0 0
0 0
0 0
1 1
0 0
1 1
0 1
입력 인수
bag
— 입력 bag-of-words 모델 또는 bag-of-n-grams 모델
bagOfWords
객체 | bagOfNgrams
객체
입력 bag-of-words 모델 또는 bag-of-n-grams 모델로, bagOfWords
객체 또는 bagOfNgrams
객체로 지정됩니다.
documents
— 입력 문서
tokenizedDocument
배열 | 단어로 구성된 string형 배열 | 문자형 벡터로 구성된 셀형 배열
입력 문서로, tokenizedDocument
배열, 단어로 구성된 string형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다. documents
가 string형 배열 또는 문자형 벡터로 구성된 셀형 배열인 경우 이는 단일 문서를 나타내고 각 요소가 단어인 행 벡터여야 합니다.
팁
문서가 제대로 인코딩되도록 하려면 입력 모델을 만드는 데 사용된 문서와 동일한 단계를 사용하여 입력 문서를 전처리해야 합니다. 텍스트 데이터를 전처리하는 함수를 만드는 방법을 보여주는 예제는 분석할 텍스트 데이터 준비하기 항목을 참조하십시오.
words
— 입력 단어
string형 벡터 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열
입력 단어로, string형 벡터, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다. words
를 문자형 벡터로 지정할 경우 이 함수는 인수를 단일 단어로 처리합니다.
데이터형: string
| char
| cell
이름-값 인수
선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN
으로 지정합니다. 여기서 Name
은 인수 이름이고 Value
는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.
R2021a 이전 릴리스에서는 각 이름과 값을 쉼표로 구분하고 Name
을 따옴표로 묶으십시오.
예: 'DocumentsIn','rows'
는 출력 문서의 방향을 행으로 지정합니다.
DocumentsIn
— 출력 문서의 방향
'rows'
(디폴트 값) | 'columns'
빈도 수 행렬에서 출력 문서의 방향으로, 'DocumentsIn'
과 함께 다음 중 하나가 쉼표로 구분되어 지정됩니다.
'rows'
- 행이 문서에 대응되는, 빈도 수로 구성된 행렬을 반환합니다.'columns'
- 열이 문서에 대응되는, 빈도 수로 구성된 전치 행렬을 반환합니다.
데이터형: char
ForceCellOutput
— 출력을 셀형 배열로 반환하도록 하는 표시자
false
(디폴트 값) | true
출력을 셀형 배열로 반환하도록 하는 표시자로, 'ForceCellOutput'
과 함께 true
또는 false
로 구성된 쌍이 쉼표로 구분되어 지정됩니다.
데이터형: logical
출력 인수
버전 내역
R2017b에 개발됨
MATLAB 명령
다음 MATLAB 명령에 해당하는 링크를 클릭했습니다.
명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)