Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

모델링 및 예측

토픽 모델과 단어 임베딩을 사용하여 예측 모델 개발

LSA, LDA, 단어 임베딩 같은 머신러닝 기법과 모델을 사용하여 고차원 텍스트 데이터셋에서 군집을 찾고 특징을 추출할 수 있습니다. Text Analytics Toolbox™에서 생성한 특징은 다른 데이터 소스의 특징과 결합할 수 있습니다. 결합된 특징을 사용하여 텍스트, 숫자 등 다양한 유형의 데이터를 활용하는 머신러닝 모델을 빌드할 수 있습니다.

함수

모두 확장

bagOfWordsBag-of-words 모델
bagOfNgramsBag-of-n-grams 모델
addDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가
removeDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거
removeInfrequentWordsbag-of-words 모델에서 개수가 적은 단어 제거
removeInfrequentNgramsbag-of-n-grams 모델에서 낮은 빈도로 나오는 n-gram 제거
removeWords문서 또는 bag-of-words 모델에서 선택한 단어 제거
removeNgramsbag-of-n-grams 모델에서 n-gram 제거
removeEmptyDocuments토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거
topkwordsbag-of-words 모델 또는 LDA 토픽에서 가장 중요한 단어
topkngrams빈도가 가장 높은 n-gram
encode문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩
tfidfTF-IDF(단어 빈도-역 문서 빈도) 행렬
joinCombine multiple bag-of-words or bag-of-n-grams models
vaderSentimentScoresVADER 알고리즘을 사용한 감성 점수 (R2019b 이후)
ratioSentimentScoresSentiment scores with ratio rule (R2019b 이후)
encodeTokenize and encode text for transformer neural network (R2023b 이후)
decodeConvert token codes to tokens (R2023b 이후)
encodeTokensConvert tokens to token codes (R2023b 이후)
subwordTokenizeTokenize text into subwords using BERT tokenizer (R2023b 이후)
wordTokenizeTokenize text into words using tokenizer (R2023b 이후)
bertPretrained BERT model (R2023b 이후)
bertTokenizerWordPiece BERT tokenizer (R2023b 이후)
bertDocumentClassifierBERT document classifier (R2023b 이후)
classifyClassify document using BERT document classifier (R2023b 이후)
encodeTokenize and encode text for transformer neural network (R2023b 이후)
decodeConvert token codes to tokens (R2023b 이후)
encodeTokensConvert tokens to token codes (R2023b 이후)
subwordTokenizeTokenize text into subwords using BERT tokenizer (R2023b 이후)
wordTokenizeTokenize text into words using tokenizer (R2023b 이후)
fastTextWordEmbedding사전 훈련된 fastText 단어 임베딩
wordEncoding단어를 인덱스로 매핑하는 단어 인코딩 모델
doc2sequence딥러닝을 위해 문서를 시퀀스로 변환
wordEmbeddingLayer딥러닝 신경망의 단어 임베딩 계층
word2vec단어를 임베딩 벡터에 매핑하기
word2ind단어를 인코딩 인덱스에 매핑하기
vec2word임베딩 벡터를 단어에 매핑
ind2word인코딩 인덱스를 단어에 매핑하기
isVocabularyWord단어가 단어 임베딩 또는 인코딩에 포함되었는지 테스트
readWordEmbedding파일에서 단어 임베딩 읽어오기
trainWordEmbeddingTrain word embedding
writeWordEmbedding단어 임베딩 파일 쓰기
wordEmbedding단어를 벡터로 매핑하는 단어 임베딩 모델
extractSummary문서에서 요약 추출 (R2020a 이후)
rakeKeywordsExtract keywords using RAKE (R2020b 이후)
textrankKeywordsExtract keywords using TextRank (R2020b 이후)
bleuEvaluationScoreEvaluate translation or summarization with BLEU similarity score (R2020a 이후)
rougeEvaluationScoreEvaluate translation or summarization with ROUGE similarity score (R2020a 이후)
bm25SimilarityDocument similarities with BM25 algorithm (R2020a 이후)
cosineSimilarity코사인 유사도를 사용한 문서 유사도 (R2020a 이후)
textrankScoresTextRank 알고리즘을 사용하여 문서 점수화 (R2020a 이후)
lexrankScoresLexRank 알고리즘을 사용하여 문서 점수화 (R2020a 이후)
mmrScoresDocument scoring with Maximal Marginal Relevance (MMR) algorithm (R2020a 이후)
fitldaFit latent Dirichlet allocation (LDA) model
fitlsaFit LSA model
resumeResume fitting LDA model
logpDocument log-probabilities and goodness of fit of LDA model
predictPredict top LDA topics of documents
transformTransform documents into lower-dimensional space
ldaModelLDA 모델
lsaModelLatent semantic analysis (LSA) model
addEntityDetails문서에 엔터티 태그 추가
trainHMMEntityModelTrain HMM-based model for named entity recognition (NER) (R2023a 이후)
predictPredict entities using named entity recognition (NER) model (R2023a 이후)
hmmEntityModelHMM-based model for named entity recognition (NER) (R2023a 이후)
wordcloud텍스트, bag-of-words 모델, bag-of-n-grams 모델 또는 LDA 모델에서 워드 클라우드 차트 만들기
textscatter2-D 텍스트 산점도 플롯
textscatter33-D 텍스트 산점도 플롯

도움말 항목

분류 및 모델링

감성 분석 및 키워드 추출

딥러닝

언어 지원