모델링 및 예측

토픽 모델과 단어 임베딩을 사용하여 예측 모델 개발

LSA, LDA, 단어 임베딩 같은 머신러닝 기법과 모델을 사용하여 고차원 텍스트 데이터셋에서 군집을 찾고 특징을 추출할 수 있습니다. Text Analytics Toolbox™에서 생성한 특징은 다른 데이터 소스의 특징과 결합할 수 있습니다. 결합된 특징을 사용하여 텍스트, 숫자 등 다양한 유형의 데이터를 활용하는 머신러닝 모델을 빌드할 수 있습니다.

함수

모두 확장

단어 및 N-Gram 개수 세기

`bagOfWords`	Bag-of-words 모델
`bagOfNgrams`	Bag-of-n-grams 모델
`addDocument`	bag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가
`removeDocument`	bag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거
`removeInfrequentWords`	bag-of-words 모델에서 개수가 적은 단어 제거
`removeInfrequentNgrams`	bag-of-n-grams 모델에서 낮은 빈도로 나오는 n-gram 제거
`removeWords`	문서 또는 bag-of-words 모델에서 선택한 단어 제거
`removeNgrams`	bag-of-n-grams 모델에서 n-gram 제거
`removeEmptyDocuments`	토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거
`topkwords`	bag-of-words 모델 또는 LDA 토픽에서 가장 중요한 단어
`topkngrams`	빈도가 가장 높은 n-gram
`encode`	문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩
`tfidf`	TF-IDF(단어 빈도-역 문서 빈도) 행렬
`join`	Combine multiple bag-of-words or bag-of-n-grams models

감성 분석

`vaderSentimentScores`	VADER 알고리즘을 사용한 감성 점수
`ratioSentimentScores`	Sentiment scores with ratio rule
`encode`	트랜스포머 신경망을 위해 텍스트 토큰화 및 인코딩 (R2023b 이후)
`decode`	토큰 코드를 토큰으로 변환 (R2023b 이후)
`encodeTokens`	Convert tokens to token codes (R2023b 이후)
`subwordTokenize`	Tokenize text into subwords using BERT tokenizer (R2023b 이후)
`wordTokenize`	토큰 추출기를 사용하여 텍스트를 단어로 토큰화 (R2023b 이후)

트랜스포머

`bert`	사전 훈련된 BERT 모델 (R2023b 이후)
`bertDocumentClassifier`	BERT 문서 분류기 (R2023b 이후)
`classify`	Classify document using BERT document classifier (R2023b 이후)
`bertTokenizer`	WordPiece BERT 토큰 추출기 (R2023b 이후)
`bpeTokenizer`	Byte pair encoding tokenizer (R2024a 이후)
`encode`	트랜스포머 신경망을 위해 텍스트 토큰화 및 인코딩 (R2023b 이후)
`decode`	토큰 코드를 토큰으로 변환 (R2023b 이후)
`encodeTokens`	Convert tokens to token codes (R2023b 이후)
`subwordTokenize`	Tokenize text into subwords using BERT tokenizer (R2023b 이후)
`trainBERTDocumentClassifier`	BERT 문서 분류기 훈련시키기 (R2023b 이후)
`wordTokenize`	토큰 추출기를 사용하여 텍스트를 단어로 토큰화 (R2023b 이후)

임베딩 및 인코딩

`documentEmbedding`	문서를 벡터로 매핑하는 문서 임베딩 모델 (R2024a 이후)
`embed`	Map document to embedding vector (R2024a 이후)
`fastTextWordEmbedding`	사전 훈련된 fastText 단어 임베딩
`wordEncoding`	단어를 인덱스로 매핑하는 단어 인코딩 모델
`doc2sequence`	딥러닝을 위해 문서를 시퀀스로 변환
`wordEmbeddingLayer`	딥러닝 신경망의 단어 임베딩 계층
`word2vec`	단어를 임베딩 벡터에 매핑하기
`word2ind`	단어를 인코딩 인덱스에 매핑하기
`vec2word`	임베딩 벡터를 단어에 매핑
`ind2word`	인코딩 인덱스를 단어에 매핑하기
`isVocabularyWord`	단어가 단어 임베딩 또는 인코딩에 포함되었는지 테스트
`readWordEmbedding`	파일에서 단어 임베딩 읽어오기
`trainWordEmbedding`	Train word embedding
`writeWordEmbedding`	단어 임베딩 파일 쓰기
`wordEmbedding`	단어를 벡터로 매핑하는 단어 임베딩 모델

문서 요약 및 유사도

`extractSummary`	문서에서 요약 추출
`rakeKeywords`	Extract keywords using RAKE
`textrankKeywords`	Extract keywords using TextRank
`bleuEvaluationScore`	Evaluate translation or summarization with BLEU similarity score
`rougeEvaluationScore`	Evaluate translation or summarization with ROUGE similarity score
`bm25Similarity`	Document similarities with BM25 algorithm
`cosineSimilarity`	코사인 유사도를 사용한 문서 유사도
`textrankScores`	TextRank 알고리즘을 사용하여 문서 점수화
`lexrankScores`	LexRank 알고리즘을 사용하여 문서 점수화
`mmrScores`	Document scoring with Maximal Marginal Relevance (MMR) algorithm

토픽 모델링 및 차원 축소

`fitlda`	Fit latent Dirichlet allocation (LDA) model
`fitlsa`	Fit LSA model
`resume`	Resume fitting LDA model
`logp`	Document log-probabilities and goodness of fit of LDA model
`predict`	Predict top LDA topics of documents
`transform`	Transform documents into lower-dimensional space
`ldaModel`	LDA 모델
`lsaModel`	Latent semantic analysis (LSA) model

개체명 인식

`addEntityDetails`	문서에 개체 태그 추가
`trainHMMEntityModel`	Train HMM-based model for named entity recognition (NER) (R2023a 이후)
`predict`	Predict entities using named entity recognition (NER) model (R2023a 이후)
`hmmEntityModel`	HMM-based model for named entity recognition (NER) (R2023a 이후)

시각화

`wordcloud`	텍스트, bag-of-words 모델, bag-of-n-grams 모델 또는 LDA 모델에서 워드 클라우드 차트 만들기
`textscatter`	2-D 텍스트 산점도 플롯
`textscatter3`	3-D 텍스트 산점도 플롯

도움말 항목

분류 및 모델링

단순 전처리 함수 만들기
이 예제에서는 텍스트 데이터 전처리 라이브 편집기 작업을 사용하여 분석할 텍스트 데이터를 정리하고 전처리하는 함수를 만드는 방법을 보여줍니다.
분류를 위한 간단한 텍스트 모델 만들기
이 예제에서는 bag-of-words 모델을 사용하여 단어 빈도 수로 간단한 텍스트 분류기를 훈련시키는 방법을 보여줍니다.
문서 임베딩을 사용하여 문서 분류하기
이 예제에서는 문서 임베딩을 사용해 문서를 특징 벡터로 변환하여 문서 분류기를 훈련시키는 방법을 보여줍니다.
다단어 구문을 사용하여 텍스트 데이터 분석하기
이 예제에서는 n-gram 빈도 수를 사용하여 텍스트를 분석하는 방법을 보여줍니다.
토픽 모델을 사용하여 텍스트 데이터 분석하기
이 예제에서는 LDA(잠재 디리클레 할당) 토픽 모델을 사용하여 텍스트 데이터를 분석하는 방법을 보여줍니다.
LDA 모델의 토픽 수 선택하기
이 예제에서는 LDA(잠재 디리클레 할당) 모델에 적합한 토픽 수를 결정하는 방법을 보여줍니다.
Compare LDA Solvers
This example shows how to compare latent Dirichlet allocation (LDA) solvers by comparing the goodness of fit and the time taken to fit the model.
LDA 모델을 사용하여 문서 군집 시각화하기
이 예제에서는 LDA(잠재 디리클레 할당) 토픽 모델과 t-SNE 플롯을 사용하여 문서 군집을 시각화하는 방법을 보여줍니다.
LDA 토픽 상관 시각화하기
이 예제에서는 LDA(잠재 디리클레 할당) 토픽 모델에서 토픽 사이의 상관을 분석하는 방법을 보여줍니다.
LDA 토픽과 문서 레이블 간의 상관 시각화하기
이 예제에서는 LDA(잠재 디리클레 할당) 토픽 모델을 피팅하고 LDA 토픽과 문서 레이블 간의 상관을 시각화하는 방법을 보여줍니다.
Train Custom Named Entity Recognition Model
This example shows how to train a custom named entity recognition (NER) model.
동시발생 신경망 만들기
이 예제에서는 bag-of-words 모델을 사용하여 동시발생 신경망을 만드는 방법을 보여줍니다.
Information Retrieval with Document Embeddings
Learn about different types of document embeddings and how to use them for information retrieval. (R2024b 이후)
Information Retrieval with Work Orders Data
This example shows how to use information retrieval techniques to find solutions for new work orders based on past actions taken and descriptions from work orders. (R2023b 이후)
BERT 문서 분류기 훈련시키기
이 예제에서는 문서 분류에 대해 BERT 신경망을 훈련시키는 방법을 보여줍니다. (R2023b 이후)

감성 분석 및 키워드 추출

Sentiment Analysis in MATLAB
Learn about sentiment analysis techniques. (R2023b 이후)
텍스트에 내포된 감성 분석하기
이 예제에서는 VADER(Valence Aware Dictionary and sEntiment Reasoner) 알고리즘을 사용하여 감성 분석을 수행하는 방법을 보여줍니다.
Generate Domain Specific Sentiment Lexicon
This example shows how to generate a lexicon for sentiment analysis using 10-K and 10-Q financial reports.
감성 분류기 훈련시키기
이 예제에서는 주석이 있는 긍정적, 부정적 감성 단어 목록과 사전 훈련된 단어 임베딩을 사용하여 분류기에게 감성 분석을 훈련시키는 방법을 보여줍니다.
RAKE를 사용하여 텍스트 데이터에서 키워드 추출하기
이 예제는 RAKE(Rapid Automatic Keyword Extraction)를 사용하여 텍스트 데이터에서 키워드를 추출하는 방법을 보여줍니다.
TextRank를 사용하여 텍스트 데이터에서 키워드 추출하기
이 예제는 TextRank를 사용하여 텍스트 데이터에서 키워드를 추출하는 방법을 보여줍니다.

딥러닝

딥러닝을 사용하여 텍스트 데이터 분류하기
이 예제에서는 딥러닝 장단기 기억(LSTM) 신경망을 사용하여 텍스트 데이터를 분류하는 방법을 보여줍니다.
컨벌루션 신경망을 사용하여 텍스트 데이터 분류하기
이 예제에서는 컨벌루션 신경망을 사용하여 텍스트 데이터를 분류하는 방법을 보여줍니다.
Classify Out-of-Memory Text Data Using Deep Learning
This example shows how to classify out-of-memory text data with a deep learning network using a transformed datastore.
Sequence-to-Sequence Translation Using Attention
This example shows how to convert decimal strings to Roman numerals using a recurrent sequence-to-sequence encoder-decoder model with attention.
Multilabel Text Classification Using Deep Learning
This example shows how to classify text data that has multiple independent labels.
딥러닝을 사용하여 텍스트 생성하기 (Deep Learning Toolbox)
이 예제에서는 텍스트를 생성하도록 딥러닝 장단기 기억(LSTM) 신경망을 훈련시키는 방법을 보여줍니다.
오만과 편견 그리고 MATLAB
이 예제에서는 문자 임베딩을 사용하여 텍스트를 생성하도록 딥러닝 LSTM 신경망을 훈련시키는 방법을 보여줍니다.
딥러닝을 사용하여 단어 단위로 텍스트 생성하기
이 예제에서는 단어 단위로 텍스트를 생성하도록 딥러닝 LSTM 신경망을 훈련시키는 방법을 보여줍니다.
Classify Text Data Using Custom Training Loop
This example shows how to classify text data using a deep learning bidirectional long short-term memory (BiLSTM) network with a custom training loop.
Generate Text Using Autoencoders
This example shows how to generate text data using autoencoders.
Define Text Encoder Model Function
This example shows how to define a text encoder model function.
텍스트 디코더 모델 함수 정의하기
이 예제에서는 텍스트 디코더 모델 함수를 정의하는 방법을 보여줍니다.
Language Translation Using Deep Learning
This example shows how to train a German to English language translator using a recurrent sequence-to-sequence encoder-decoder model with attention.
Extract Answers from Documents Using BERT
This example shows how to modify and fine-tune a pretrained BERT model for extractive question answering. (R2024b 이후)
Out-of-Distribution Detection for BERT Document Classifier
Detect out-of-distribution (OOD) data in a BERT document classifier. (R2024b 이후)
Out-of-Distribution Detection for LSTM Document Classifier
Detect out-of-distribution (OOD) data in an LSTM document classifier. (R2024a 이후)

언어 지원

언어 고려 사항
다른 언어에서 Text Analytics Toolbox 기능을 사용하는 방법에 대한 정보.
일본어 지원
Text Analytics Toolbox의 일본어 지원에 대한 정보.
일본어 텍스트 데이터 분석하기
이 예제에서는 토픽 모델을 사용하여 일본어 텍스트 데이터를 가져와서 준비하고 분석하는 방법을 보여줍니다.
독일어 지원
Text Analytics Toolbox의 독일어 지원에 대한 정보.
독일어 텍스트 데이터 분석하기
이 예제에서는 토픽 모델을 사용하여 독일어 텍스트 데이터를 가져와서 준비하고 분석하는 방법을 보여줍니다.