Text Analytics Toolbox

 

Text Analytics Toolbox

텍스트 데이터를 분석하고 모델링할 수 있습니다.

시작하기:

텍스트 데이터 가져오기 및 시각화

소셜 미디어, 뉴스 피드, 장비 기록, 보고서, 설문 조사 등의 소스에서 텍스트 데이터를 추출할 수 있습니다.

텍스트 데이터 추출

PDF, HTML, Microsoft® Word®, Excel® 파일 등, 단일 파일이나 대규모 파일 모음에서 텍스트 데이터를 MATLAB®으로 가져올 수 있습니다.

Microsoft Word 문서 모음에서 텍스트 추출.

Microsoft Word 문서 모음에서 텍스트 추출.

텍스트 시각화

단어 구름 및 텍스트 산점도 플롯을 사용하여 텍스트 데이터셋을 시각적으로 탐색할 수 있습니다.

글꼴 크기와 색상을 사용하여 단어의 상대적 빈도를 표시한 단어 구름.

글꼴 크기와 색상을 사용하여 단어의 상대적 빈도를 표시한 단어 구름.

언어 지원

Text Analytics Toolbox는 영어, 일본어, 독일어, 한국어에 대한 언어별 전처리 기능을 제공합니다. 대부분의 함수는 기타 언어의 텍스트로도 작업할 수 있습니다.

일본어 텍스트를 가져오고 준비하고 분석합니다.

일본어 텍스트를 가져오고 준비하고 분석합니다.

텍스트 데이터 전처리

원시 텍스트에서 유의미한 단어를 추출할 수 있습니다.

텍스트 데이터 정리

하이 레벨 필터링 함수를 적용하여 URL, HTML 태그, 구두점 등의 관련 없는 내용을 삭제하고, 철자를 수정할 수 있습니다.

원시 텍스트를 단순화하여 가장 유의미한 단어로 작업할 수 있습니다.

원시 텍스트(왼쪽)를 단순화하여 가장 유의미한 단어(오른쪽)로 작업할 수 있습니다.

불용어의 필터링 및 어근 형식으로의 단어 정규화

일반적인 단어, 등장 빈도가 너무 높거나 너무 낮은 단어, 매우 길거나 매우 짧은 단어를 필터링하여 분석에서 유의미한 텍스트 데이터의 우선순위를 정할 수 있습니다. 어근 형식으로의 어간 추출 또는 사전 형식으로의 표제어 추출을 통해 단어집의 크기를 줄이고 문서의 넓은 의미 또는 감성에 집중할 수 있습니다.

문서에서 'a' 및 'of' 등의 불용어를 제거합니다.

문서에서 'a' 및 'of' 등의 불용어를 제거합니다.

토큰, 문장, 품사 식별

토큰화 알고리즘을 사용하여 원시 텍스트를 단어 모음으로 자동 분할할 수 있습니다. 문장 경계, 품사 세부 정보 등의 문맥 관련 정보를 추가할 수 있습니다.

토큰화된 문서에 품사 및 문장 세부 정보 추가.

토큰화된 문서에 품사 및 문장 세부 정보 추가.

텍스트를 숫자 형식으로 변환

머신러닝과 딥러닝에 사용하도록 텍스트 데이터를 숫자 형식으로 변환할 수 있습니다.

단어 및 N-gram 계산

텍스트 데이터를 숫자로 표현할 수 있도록 단어 빈도 통계량을 계산할 수 있습니다.

모델에서 가장 자주 나오는 단어를 식별하고 시각화합니다.

모델에서 가장 자주 나오는 단어를 식별하고 시각화합니다.

단어 임베딩 및 인코딩

word2vec CBOW(Continuous Bag-of-Words) 및 skip-gram 모델과 같은 단어 임베딩 모델을 훈련할 수 있습니다. fastText 및 GloVe 등의 사전 훈련된 모델을 가져올 수 있습니다.

단어 임베딩을 사용하여 텍스트 산점도 플롯에서 군집을 시각화합니다.

단어 임베딩을 사용하여 텍스트 산점도 플롯에서 군집을 시각화합니다. 

텍스트 데이터를 활용한 머신러닝

머신러닝 알고리즘을 사용하여 토픽 모델링, 감성 분석, 분류, 차원 축소, 문서 요약 추출을 수행할 수 있습니다.

토픽 모델링

LDA(잠재 디리클레 할당)와 LSA(잠재 의미 분석) 같은 머신러닝 알고리즘을 사용하여 대규모 텍스트 데이터셋에서 기본 패턴, 추세, 복잡한 관계를 발견하고 시각화할 수 있습니다.

폭풍 보고서 데이터에서 토픽 식별.

폭풍 보고서 데이터에서 토픽 식별.

문서 요약 및 키워드 추출

하나 이상의 문서에서 요약과 관련 키워드를 자동으로 추출하고 문서의 유사도과 중요도를 평가할 수 있습니다.

텍스트에서 요약 추출.

텍스트에서 요약 추출.

감성 분석

텍스트 데이터로 표현된 태도와 의견을 식별하여 긍정적 진술, 중립적 진술, 부정적 진술로 분류할 수 있습니다. 실시간으로 감정을 예측할 수 있는 모델들을 구축할 수 있습니다.

긍정 감성과 부정 감성을 예측하는 단어를 식별할 수 있습니다.

긍정 감성과 부정 감성을 예측하는 단어를 식별할 수 있습니다.

텍스트 데이터를 활용한 딥러닝

딥러닝 알고리즘을 사용하여 감성 분석, 분류, 요약, 텍스트 생성을 수행할 수 있습니다.

Transformer 모델

텍스트 데이터에 BERT, FinBERT, 및 GPT-2 등의 Transformer 모델을 활용하여 감성 분석, 분류, 요약 같은 작업을 위한 전이 학습을 수행할 수 있습니다.

텍스트 데이터를 이용한 전이 학습을 위한 Transformer 모델.

텍스트 데이터를 이용한 전이 학습을 위한 Transformer 모델.

텍스트 데이터 분류를 위한 심층 신경망 훈련.

텍스트 데이터 분류를 위한 심층 신경망 훈련.

텍스트 생성

관찰한 텍스트를 기반으로 딥러닝을 사용하여 새로운 텍스트를 생성할 수 있습니다.

제인 오스틴의 《오만과 편견》과 딥러닝 LSTM 신경망을 활용한 텍스트 생성.

제인 오스틴의 《오만과 편견》과 딥러닝 LSTM 신경망을 활용한 텍스트 생성.