Text Analytics Toolbox

텍스트 데이터를 분석하고 모델링할 수 있습니다.

Text Analytics Toolbox™는 텍스트 데이터의 전처리, 분석, 모델링을 위한 시각화와 알고리즘을 제공합니다. 이 툴박스로 만들어진 모델은 감성 분석, 예측 정비, 토픽 모델링 같은 응용 분야에 사용할 수 있습니다.

Text Analytics Toolbox에는 장비 기록, 뉴스 피드, 설문 조사, 운영자 보고서, 소셜 미디어 같은 소스의 원시 텍스트를 처리하는 툴이 있습니다. 사용자는 널리 사용되는 파일 형식에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어를 추출하고, 텍스트를 숫자 표현으로 변환하고, 통계적 모델을 구축할 수 있습니다.

LSA, LDA, 단어 임베딩 같은 머신러닝 기법을 활용하여 고차원 텍스트 데이터셋에서 군집을 찾고 특징을 생성할 수 있습니다. Text Analytics Toolbox로 생성된 특징을 다른 데이터 소스의 특징과 결합하여 텍스트, 숫자 및 기타 유형의 데이터를 활용하는 머신러닝 모델을 구축할 수 있습니다.

시작하기:

텍스트 데이터 가져오기 및 시각화

소셜 미디어, 뉴스 피드, 장비 기록, 보고서, 설문 조사 등의 소스에서 텍스트 데이터를 추출할 수 있습니다.

텍스트 데이터 추출

PDF, HTML, Microsoft® Word®, Excel® 파일 등, 단일 파일이나 대규모 파일 모음에서 텍스트 데이터를 MATLAB®으로 가져올 수 있습니다.

Microsoft Word 문서 모음에서 텍스트 추출.

텍스트 시각화

단어 구름 및 텍스트 산점도 플롯을 사용하여 텍스트 데이터셋을 시각적으로 탐색할 수 있습니다.

글꼴 크기와 색상을 사용하여 단어의 상대적 빈도를 표시한 단어 구름.

언어 지원

Text Analytics Toolbox는 영어, 일본어, 독일어, 한국어에 대한 언어별 전처리 기능을 제공합니다. 대부분의 함수는 기타 언어의 텍스트로도 작업할 수 있습니다.

일본어 텍스트를 가져오고 준비하고 분석합니다.

텍스트 데이터 전처리

원시 텍스트에서 유의미한 단어를 추출할 수 있습니다.

텍스트 데이터 정리

하이 레벨 필터링 함수를 적용하여 URL, HTML 태그, 구두점 등의 관련 없는 내용을 삭제하고, 철자를 수정할 수 있습니다.

원시 텍스트(왼쪽)를 단순화하여 가장 유의미한 단어(오른쪽)로 작업할 수 있습니다.

불용어의 필터링 및 어근 형식으로의 단어 정규화

일반적인 단어, 등장 빈도가 너무 높거나 너무 낮은 단어, 매우 길거나 매우 짧은 단어를 필터링하여 분석에서 유의미한 텍스트 데이터의 우선순위를 정할 수 있습니다. 어근 형식으로의 어간 추출 또는 사전 형식으로의 표제어 추출을 통해 단어집의 크기를 줄이고 문서의 넓은 의미 또는 감성에 집중할 수 있습니다.

문서에서 'a' 및 'of' 등의 불용어를 제거합니다.

토큰, 문장, 품사 식별

토큰화 알고리즘을 사용하여 원시 텍스트를 단어 모음으로 자동 분할할 수 있습니다. 문장 경계, 품사 세부 정보 등의 문맥 관련 정보를 추가할 수 있습니다.

토큰화된 문서에 품사 및 문장 세부 정보 추가.

텍스트를 숫자 형식으로 변환

머신러닝과 딥러닝에 사용하도록 텍스트 데이터를 숫자 형식으로 변환할 수 있습니다.

단어 및 N-gram 계산

텍스트 데이터를 숫자로 표현할 수 있도록 단어 빈도 통계량을 계산할 수 있습니다.

모델에서 가장 자주 나오는 단어를 식별하고 시각화합니다.

단어 임베딩 및 인코딩

word2vec CBOW(Continuous Bag-of-Words) 및 skip-gram 모델과 같은 단어 임베딩 모델을 훈련할 수 있습니다. fastText 및 GloVe 등의 사전 훈련된 모델을 가져올 수 있습니다.

단어 임베딩을 사용하여 텍스트 산점도 플롯에서 군집을 시각화합니다. 

텍스트 데이터를 활용한 머신러닝

머신러닝 알고리즘을 사용하여 토픽 모델링, 감성 분석, 분류, 차원 축소, 문서 요약 추출을 수행할 수 있습니다.

토픽 모델링

LDA(잠재 디리클레 할당)와 LSA(잠재 의미 분석) 같은 머신러닝 알고리즘을 사용하여 대규모 텍스트 데이터셋에서 기본 패턴, 추세, 복잡한 관계를 발견하고 시각화할 수 있습니다.

폭풍 보고서 데이터에서 토픽 식별.

문서 요약 및 키워드 추출

하나 이상의 문서에서 요약과 관련 키워드를 자동으로 추출하고 문서의 유사도과 중요도를 평가할 수 있습니다.

텍스트에서 요약 추출.

감성 분석

텍스트 데이터로 표현된 태도와 의견을 식별하여 긍정적 진술, 중립적 진술, 부정적 진술로 분류할 수 있습니다. 실시간으로 감정을 예측할 수 있는 모델들을 구축할 수 있습니다.

긍정 감성과 부정 감성을 예측하는 단어를 식별할 수 있습니다.

텍스트 데이터를 활용한 딥러닝

딥러닝 알고리즘을 사용하여 감성 분석, 분류, 요약, 텍스트 생성을 수행할 수 있습니다.

Transformer 모델

텍스트 데이터에 BERT 및 GPT-2 등의 Transformer 모델을 활용하여 감성 분석, 분류, 요약 같은 작업을 위한 전이 학습을 수행할 수 있습니다.

텍스트 데이터를 이용한 전이 학습을 위한 Transformer 모델.

텍스트 데이터 분류를 위한 심층 신경망 훈련.

텍스트 생성

관찰한 텍스트를 기반으로 딥러닝을 사용하여 새로운 텍스트를 생성할 수 있습니다.

제인 오스틴의 《오만과 편견》과 딥러닝 LSTM 신경망을 활용한 텍스트 생성. 

Text Analytics Toolbox 추가 리소스