Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

모델링 및 예측

토픽 모델과 단어 임베딩을 사용하여 예측 모델 개발

LSA, LDA, 단어 임베딩 같은 머신러닝 기법과 모델을 사용하여 고차원 텍스트 데이터셋에서 군집을 찾고 특징을 추출할 수 있습니다. Text Analytics Toolbox™에서 생성한 특징은 다른 데이터 소스의 특징과 결합할 수 있습니다. 결합된 특징을 사용하여 텍스트, 숫자 등 다양한 유형의 데이터를 활용하는 머신러닝 모델을 빌드할 수 있습니다.

함수

모두 확장

bagOfWordsBag-of-words 모델
bagOfNgramsBag-of-n-grams 모델
addDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가
removeDocumentbag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거
removeInfrequentWordsbag-of-words 모델에서 개수가 적은 단어 제거
removeInfrequentNgramsbag-of-n-grams 모델에서 낮은 빈도로 나오는 n-gram 제거
removeWords문서 또는 bag-of-words 모델에서 선택한 단어 제거
removeNgramsbag-of-n-grams 모델에서 n-gram 제거
removeEmptyDocuments토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거
topkwordsMost important words in bag-of-words model or LDA topic
topkngramsMost frequent n-grams
encode문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩
tfidfTerm Frequency–Inverse Document Frequency (tf-idf) matrix
joinCombine multiple bag-of-words or bag-of-n-grams models
vaderSentimentScoresSentiment scores with VADER algorithm
ratioSentimentScoresSentiment scores with ratio rule
fastTextWordEmbedding사전 훈련된 fastText 단어 임베딩
wordEncodingWord encoding model to map words to indices and back
doc2sequenceConvert documents to sequences for deep learning
wordEmbeddingLayer딥러닝 신경망을 위한 단어 임베딩 계층
word2vec단어를 임베딩 벡터에 매핑하기
word2ind단어를 인코딩 인덱스에 매핑하기
vec2word임베딩 벡터를 단어에 매핑
ind2wordMap encoding index to word
isVocabularyWord단어가 단어 임베딩 또는 인코딩에 포함되었는지 테스트
readWordEmbedding파일에서 단어 임베딩 읽어오기
trainWordEmbeddingTrain word embedding
writeWordEmbedding단어 임베딩 파일 쓰기
wordEmbedding단어를 벡터로 매핑하는 단어 임베딩 모델
extractSummary문서에서 요약 추출
rakeKeywordsExtract keywords using RAKE
textrankKeywordsExtract keywords using TextRank
bleuEvaluationScoreEvaluate translation or summarization with BLEU similarity score
rougeEvaluationScoreEvaluate translation or summarization with ROUGE similarity score
bm25SimilarityDocument similarities with BM25 algorithm
cosineSimilarityDocument similarities with cosine similarity
textrankScoresTextRank 알고리즘을 사용하여 문서 점수화
lexrankScoresDocument scoring with LexRank algorithm
mmrScoresDocument scoring with Maximal Marginal Relevance (MMR) algorithm
fitldaFit latent Dirichlet allocation (LDA) model
fitlsaFit LSA model
resumeResume fitting LDA model
logpDocument log-probabilities and goodness of fit of LDA model
predictPredict top LDA topics of documents
transformTransform documents into lower-dimensional space
ldaModelLatent Dirichlet allocation (LDA) model
lsaModelLatent semantic analysis (LSA) model
wordcloudCreate word cloud chart from text, bag-of-words model, bag-of-n-grams model, or LDA model
textscatter2-D scatter plot of text
textscatter33-D scatter plot of text

도움말 항목

분류 및 모델링

단순 전처리 함수 만들기

이 예제에서는 분석할 텍스트 데이터를 정리하고 전처리하는 함수를 만드는 방법을 보여줍니다.

분류를 위한 간단한 텍스트 모델 만들기

이 예제에서는 bag-of-words 모델을 사용하여 단어 빈도 수로 간단한 텍스트 분류기를 훈련시키는 방법을 보여줍니다.

다단어 구문을 사용하여 텍스트 데이터 분석하기

이 예제에서는 n-gram 빈도 수를 사용하여 텍스트를 분석하는 방법을 보여줍니다.

토픽 모델을 사용하여 텍스트 데이터 분석하기

이 예제에서는 LDA(잠재 디리클레 할당) 토픽 모델을 사용하여 텍스트 데이터를 분석하는 방법을 보여줍니다.

LDA 모델의 토픽 수 선택하기

이 예제에서는 LDA(잠재 디리클레 할당) 모델에 적합한 토픽 수를 결정하는 방법을 보여줍니다.

Compare LDA Solvers

This example shows how to compare latent Dirichlet allocation (LDA) solvers by comparing the goodness of fit and the time taken to fit the model.

감성 분석 및 키워드 추출

텍스트에 내포된 감성 분석하기

이 예제에서는 VADER(Valence Aware Dictionary and sEntiment Reasoner) 알고리즘을 사용하여 감성 분석을 수행하는 방법을 보여줍니다.

Generate Domain Specific Sentiment Lexicon

This example shows how to generate a lexicon for sentiment analysis using 10-K and 10-Q financial reports.

Train a Sentiment Classifier

This example shows how to train a classifier for sentiment analysis using an annotated list of positive and negative sentiment words and a pretrained word embedding.

Extract Keywords from Text Data Using RAKE

This example shows how to extract keywords from text data using Rapid Automatic Keyword Extraction (RAKE).

Extract Keywords from Text Data Using TextRank

This example shows to extract keywords from text data using TextRank.

딥러닝

딥러닝을 사용하여 텍스트 데이터 분류하기

이 예제에서는 딥러닝 장단기 기억(LSTM) 신경망을 사용하여 텍스트 데이터를 분류하는 방법을 보여줍니다.

Classify Text Data Using Convolutional Neural Network

This example shows how to classify text data using a convolutional neural network.

Classify Out-of-Memory Text Data Using Deep Learning

This example shows how to classify out-of-memory text data with a deep learning network using a transformed datastore.

Sequence-to-Sequence Translation Using Attention

This example shows how to convert decimal strings to Roman numerals using a recurrent sequence-to-sequence encoder-decoder model with attention.

딥러닝을 사용하여 텍스트 생성하기 (Deep Learning Toolbox)

이 예제에서는 텍스트를 생성하도록 딥러닝 장단기 기억(LSTM) 신경망을 훈련시키는 방법을 보여줍니다.

오만과 편견 그리고 MATLAB

이 예제에서는 문자 임베딩을 사용하여 텍스트를 생성하도록 딥러닝 LSTM 신경망을 훈련시키는 방법을 보여줍니다.

Word-By-Word Text Generation Using Deep Learning

This example shows how to train a deep learning LSTM network to generate text word-by-word.

Classify Text Data Using Custom Training Loop

This example shows how to classify text data using a deep learning bidirectional long short-term memory (BiLSTM) network with a custom training loop.

Generate Text Using Autoencoders

This example shows how to generate text data using autoencoders.

Define Text Encoder Model Function

This example shows how to define a text encoder model function.

텍스트 디코더 모델 함수 정의하기

이 예제에서는 텍스트 디코더 모델 함수를 정의하는 방법을 보여줍니다.

언어 지원

언어 고려 사항

다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법에 대한 정보.

Japanese Language Support

Information on Japanese support in Text Analytics Toolbox.

Analyze Japanese Text Data

This example shows how to import, prepare, and analyze Japanese text data using a topic model.

German Language Support

Information on German support in Text Analytics Toolbox.

Analyze German Text Data

This example shows how to import, prepare, and analyze German text data using a topic model.

추천 예제