이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
tfidf
TF-IDF(단어 빈도-역 문서 빈도) 행렬
설명
예제
Tf-idf 행렬 만들기
bag-of-words 모델에서 TF-IDF(단어 빈도-역 문서 빈도) 행렬을 만듭니다.
예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt
에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt
에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);
bagOfWords
를 사용하여 bag-of-words 모델을 만듭니다.
bag = bagOfWords(documents)
bag = bagOfWords with properties: Counts: [154x3092 double] Vocabulary: ["fairest" "creatures" "desire" "increase" "thereby" "beautys" "rose" "might" "never" "die" "riper" "time" "decease" "tender" "heir" "bear" "memory" "thou" ... ] (1x3092 string) NumWords: 3092 NumDocuments: 154
tf-idf 행렬을 만듭니다. 처음 10개의 행과 열을 표시합니다.
M = tfidf(bag); full(M(1:10,1:10))
ans = 10×10
3.6507 4.3438 2.7344 3.6507 4.3438 2.2644 3.2452 3.8918 2.4720 2.5520
0 0 0 0 0 4.5287 0 0 0 0
0 0 0 0 0 0 0 0 0 2.5520
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 2.5520
0 0 2.7344 0 0 0 0 0 0 0
새 문서에서 TF-IDF 행렬 만들기
bag-of-words 모델과 새 문서로 구성된 배열에서 TF-IDF(단어 빈도-역 문서 빈도) 행렬을 만듭니다.
예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt
에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt
에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);
문서에서 bag-of-words 모델을 만듭니다.
bag = bagOfWords(documents)
bag = bagOfWords with properties: Counts: [154x3092 double] Vocabulary: ["fairest" "creatures" "desire" "increase" "thereby" "beautys" "rose" "might" "never" "die" "riper" "time" "decease" "tender" "heir" "bear" "memory" "thou" ... ] (1x3092 string) NumWords: 3092 NumDocuments: 154
bag
에서 계산된 IDF(역 문서 빈도) 인자를 사용하여 새 문서로 구성된 배열에 대한 TF-IDF 행렬을 만듭니다.
newDocuments = tokenizedDocument([ "what's in a name? a rose by any other name would smell as sweet." "if music be the food of love, play on."]); M = tfidf(bag,newDocuments)
M = (1,7) 3.2452 (1,36) 1.2303 (2,197) 3.4275 (2,313) 3.6507 (2,387) 0.6061 (1,1205) 4.7958 (1,1835) 3.6507 (2,1917) 5.0370
TF 가중치 식 지정하기
예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt
에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt
에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);
bagOfWords
를 사용하여 bag-of-words 모델을 만듭니다.
bag = bagOfWords(documents)
bag = bagOfWords with properties: Counts: [154x3092 double] Vocabulary: ["fairest" "creatures" "desire" "increase" "thereby" "beautys" "rose" "might" "never" "die" "riper" "time" "decease" "tender" "heir" "bear" "memory" "thou" ... ] (1x3092 string) NumWords: 3092 NumDocuments: 154
tf-idf 행렬을 만듭니다. 처음 10개의 행과 열을 표시합니다.
M = tfidf(bag); full(M(1:10,1:10))
ans = 10×10
3.6507 4.3438 2.7344 3.6507 4.3438 2.2644 3.2452 3.8918 2.4720 2.5520
0 0 0 0 0 4.5287 0 0 0 0
0 0 0 0 0 0 0 0 0 2.5520
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 2.5520
0 0 2.7344 0 0 0 0 0 0 0
TF 및 IDF 가중치 식을 지정하면 TF-IDF 행렬에 대한 TF 및 IDF 인자의 기여도를 변경할 수 있습니다.
단어가 문서에 나오는 횟수를 무시하려면 'TFWeight'
의 이진 옵션을 사용합니다. TF-IDF 행렬을 만들고 'TFWeight'
를 'binary'
로 설정합니다. 처음 10개의 행과 열을 표시합니다.
M = tfidf(bag,'TFWeight','binary'); full(M(1:10,1:10))
ans = 10×10
3.6507 4.3438 2.7344 3.6507 4.3438 2.2644 3.2452 1.9459 2.4720 2.5520
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 0 0 0 0 2.5520
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 2.2644 0 0 0 2.5520
0 0 2.7344 0 0 0 0 0 0 0
입력 인수
bag
— 입력 bag-of-words 모델 또는 bag-of-n-grams 모델
bagOfWords
객체 | bagOfNgrams
객체
입력 bag-of-words 모델 또는 bag-of-n-grams 모델로, bagOfWords
객체 또는 bagOfNgrams
객체로 지정됩니다.
documents
— 입력 문서
tokenizedDocument
배열 | string형 배열 | 문자형 벡터로 구성된 셀형 배열
입력 문서로, tokenizedDocument
배열, 단어로 구성된 string형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다. documents
가 tokenizedDocument
배열이 아닌 경우 이는 단일 문서를 나타내고 각 요소가 단어인 행 벡터여야 합니다. 문서를 여러 개 지정하려면 tokenizedDocument
배열을 사용하십시오.
이름-값 인수
선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN
으로 지정합니다. 여기서 Name
은 인수 이름이고 Value
는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.
R2021a 이전 릴리스에서는 각 이름과 값을 쉼표로 구분하고 Name
을 따옴표로 묶으십시오.
예: 'Normalized',true
는 빈도 수를 정규화하도록 지정합니다.
TFWeight
— 단어 빈도 인자를 설정하는 방법
'raw'
(디폴트 값) | 'binary'
| 'log'
TF(단어 빈도) 인자를 설정하는 방법으로, 'TFWeight'
와 함께 다음 중 하나가 쉼표로 구분되어 지정됩니다.
'raw'
– TF 인자를 변경되지 않은 원래 단어 개수로 설정합니다.'binary'
– TF 인자를 0과 1의 행렬로 설정합니다. 여기서 1은 단어가 문서에 있는지 여부를 나타냅니다.'log'
– TF 인자를1 + log(bag.Counts)
로 설정합니다.
예: 'TFWeight','binary'
데이터형: char
IDFWeight
— 역 문서 빈도 인자를 계산하는 방법
'normal'
(디폴트 값) | 'textrank'
| 'classic-bm25'
| 'unary'
| 'smooth'
| 'max'
| 'probabilistic'
역 문서 빈도 인자를 계산하는 방법으로, 'IDFWeight'
와 함께 다음 중 하나가 쉼표로 구분되어 지정됩니다.
'textrank'
– TextRank IDF 가중치[1]를 사용합니다. 각 단어에 대해 IDF 인자를 다음과 같이 설정합니다.log((N-NT+0.5)/(NT+0.5))
: 단어가 문서의 절반 이상에서 나타나는 경우 설정합니다. 여기서N
은 입력 데이터의 문서 개수이고NT
는 각 단어가 포함된 입력 데이터의 문서 개수입니다.IDFCorrection*avgIDF
: 단어가 문서의 절반 또는 f에서 나타나는 경우 설정합니다. 여기서avgIDF
는 모든 토큰의 평균 IDF입니다.
'classic-bm25'
- 각 단어에 대해 IDF 인자를log((N-NT+0.5)/(NT+0.5))
로 설정합니다.'normal'
- 각 단어에 대해 IDF 인자를log(N/NT)
로 설정합니다.'unary'
- 각 단어에 대해 IDF 인자를 1로 설정합니다.'smooth'
- 각 단어에 대해 IDF 인자를log(1+N/NT)
로 설정합니다.'max'
- 각 단어에 대해 IDF 인자를log(1+max(NT)/NT)
로 설정합니다.'probabilistic'
- 각 단어에 대해 IDF 인자를log((N-NT)/NT)
로 설정합니다.
여기서 N
은 입력 데이터의 문서 개수이고 NT
는 각 단어가 포함된 입력 데이터의 문서 개수입니다.
예: 'IDFWeight','smooth'
데이터형: char
IDFCorrection
— 역 문서 빈도 보정 인자
0.25 (디폴트 값) | 음이 아닌 스칼라
역 문서 빈도 보정 인자로, 'IDFCorrection'
과 함께 음이 아닌 스칼라가 쉼표로 구분되어 지정됩니다.
이 옵션은 'IDFWeight'
가 'textrank'
인 경우에만 적용됩니다.
데이터형: single
| double
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
Normalized
— 단어 개수를 정규화하는 옵션
false
(디폴트 값) | true
단어 개수를 정규화하는 옵션으로, 'Normalized'
와 함께 true
또는 false
가 쉼표로 구분되어 지정됩니다. true
이면 이 함수는 단어 개수의 각 벡터를 유클리드 노름으로 정규화합니다.
예: 'Normalized',true
데이터형: logical
DocumentsIn
— 출력 문서의 방향
'rows'
(디폴트 값) | 'columns'
빈도 수 행렬에서 출력 문서의 방향으로, 'DocumentsIn'
과 함께 다음 중 하나가 쉼표로 구분되어 지정됩니다.
'rows'
- 행이 문서에 대응되는, 빈도 수로 구성된 행렬을 반환합니다.'columns'
- 열이 문서에 대응되는, 빈도 수로 구성된 전치 행렬을 반환합니다.
데이터형: char
ForceCellOutput
— 출력을 셀형 배열로 반환하도록 하는 표시자
false
(디폴트 값) | true
출력을 셀형 배열로 반환하도록 하는 표시자로, 'ForceCellOutput'
과 함께 true
또는 false
로 구성된 쌍이 쉼표로 구분되어 지정됩니다.
데이터형: logical
출력 인수
참고 문헌
[1] Barrios, Federico, Federico López, Luis Argerich, and Rosa Wachenchauzer. "Variations of the Similarity Function of TextRank for Automated Summarization." arXiv preprint arXiv:1602.03606 (2016).
버전 내역
R2017b에 개발됨
MATLAB 명령
다음 MATLAB 명령에 해당하는 링크를 클릭했습니다.
명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)