Text Analytics Toolbox

 

Text Analytics Toolbox

텍스트 데이터를 분석하고 모델링할 수 있습니다.

시작하기:

텍스트 데이터 가져오기 및 시각화

소셜 미디어, 뉴스 피드, 장비 기록, 보고서, 설문 조사 등의 소스에서 텍스트 데이터를 추출할 수 있습니다.

텍스트 데이터 추출

PDF, HTML, Microsoft® Word®, Excel® 파일 등, 단일 파일이나 대규모 파일 모음에서 텍스트 데이터를 MATLAB®으로 가져올 수 있습니다.

Microsoft Word 문서 모음에서 텍스트 추출.

텍스트 시각화

단어 구름 및 텍스트 산점도 플롯을 사용하여 텍스트 데이터셋을 시각적으로 탐색할 수 있습니다.

글꼴 크기와 색상을 사용하여 단어의 상대적 빈도를 표시한 단어 구름.

언어 지원

Text Analytics Toolbox는 영어, 일본어, 독일어, 한국어에 대한 언어별 전처리 기능을 제공합니다. 대부분의 함수는 기타 언어의 텍스트로도 작업할 수 있습니다.

일본어 텍스트를 가져오고 준비하고 분석합니다.

텍스트 데이터 전처리

원시 텍스트에서 유의미한 단어를 추출할 수 있습니다.

텍스트 데이터 정리

하이 레벨 필터링 함수를 적용하여 URL, HTML 태그, 구두점 등의 관련 없는 내용을 삭제하고, 철자를 수정할 수 있습니다.

원시 텍스트(왼쪽)를 단순화하여 가장 유의미한 단어(오른쪽)로 작업할 수 있습니다.

불용어의 필터링 및 어근 형식으로의 단어 정규화

일반적인 단어, 등장 빈도가 너무 높거나 너무 낮은 단어, 매우 길거나 매우 짧은 단어를 필터링하여 분석에서 유의미한 텍스트 데이터의 우선순위를 정할 수 있습니다. 어근 형식으로의 어간 추출 또는 사전 형식으로의 표제어 추출을 통해 단어집의 크기를 줄이고 문서의 넓은 의미 또는 감성에 집중할 수 있습니다.

문서에서 'a' 및 'of' 등의 불용어를 제거합니다.

토큰, 문장, 품사 식별

토큰화 알고리즘을 사용하여 원시 텍스트를 단어 모음으로 자동 분할할 수 있습니다. 문장 경계, 품사 세부 정보 등의 문맥 관련 정보를 추가할 수 있습니다.

토큰화된 문서에 품사 및 문장 세부 정보 추가.

텍스트를 숫자 형식으로 변환

머신러닝과 딥러닝에 사용하도록 텍스트 데이터를 숫자 형식으로 변환할 수 있습니다.

단어 및 N-gram 계산

텍스트 데이터를 숫자로 표현할 수 있도록 단어 빈도 통계량을 계산할 수 있습니다.

모델에서 가장 자주 나오는 단어를 식별하고 시각화합니다.

단어 임베딩 및 인코딩

word2vec CBOW(Continuous Bag-of-Words) 및 skip-gram 모델과 같은 단어 임베딩 모델을 훈련할 수 있습니다. fastText 및 GloVe 등의 사전 훈련된 모델을 가져올 수 있습니다.

단어 임베딩을 사용하여 텍스트 산점도 플롯에서 군집을 시각화합니다. 

텍스트 데이터를 활용한 머신러닝

머신러닝 알고리즘을 사용하여 토픽 모델링, 감성 분석, 분류, 차원 축소, 문서 요약 추출을 수행할 수 있습니다.

토픽 모델링

LDA(잠재 디리클레 할당)와 LSA(잠재 의미 분석) 같은 머신러닝 알고리즘을 사용하여 대규모 텍스트 데이터셋에서 기본 패턴, 추세, 복잡한 관계를 발견하고 시각화할 수 있습니다.

폭풍 보고서 데이터에서 토픽 식별.

문서 요약 및 키워드 추출

하나 이상의 문서에서 요약과 관련 키워드를 자동으로 추출하고 문서의 유사도과 중요도를 평가할 수 있습니다.

텍스트에서 요약 추출.

감성 분석

텍스트 데이터로 표현된 태도와 의견을 식별하여 긍정적 진술, 중립적 진술, 부정적 진술로 분류할 수 있습니다. 실시간으로 감정을 예측할 수 있는 모델들을 구축할 수 있습니다.

긍정 감성과 부정 감성을 예측하는 단어를 식별할 수 있습니다.

텍스트 데이터를 활용한 딥러닝

딥러닝 알고리즘을 사용하여 감성 분석, 분류, 요약, 텍스트 생성을 수행할 수 있습니다.

Transformer 모델

텍스트 데이터에 BERT 및 GPT-2 등의 Transformer 모델을 활용하여 감성 분석, 분류, 요약 같은 작업을 위한 전이 학습을 수행할 수 있습니다.

텍스트 데이터를 이용한 전이 학습을 위한 Transformer 모델.

텍스트 데이터 분류를 위한 심층 신경망 훈련.

텍스트 생성

관찰한 텍스트를 기반으로 딥러닝을 사용하여 새로운 텍스트를 생성할 수 있습니다.

제인 오스틴의 《오만과 편견》과 딥러닝 LSTM 신경망을 활용한 텍스트 생성.