Text Analytics Toolbox는 텍스트 데이터의 전처리, 분석, 모델링을 위한 시각화와 알고리즘을 제공합니다. 이 툴박스로 만들어진 모델은 감성 분석, 예측 정비, 토픽 모델링 같은 응용 분야에 사용할 수 있습니다.
Text Analytics Toolbox에는 장비 기록, 뉴스 피드, 설문 조사, 운영자 보고서, 소셜 미디어 같은 소스의 원시 텍스트를 처리하는 툴이 있습니다. 사용자는 널리 사용되는 파일 형식에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어를 추출하고, 텍스트를 숫자 표현으로 변환하고, 통계적 모델을 구축할 수 있습니다.
LSA, LDA, 단어 임베딩 같은 머신러닝 기법을 활용하여 고차원 텍스트 데이터셋에서 군집을 찾고 특징을 생성할 수 있습니다. Text Analytics Toolbox로 생성된 특징을 다른 데이터 소스의 특징과 결합하여 텍스트, 숫자 및 기타 유형의 데이터를 활용하는 머신러닝 모델을 구축할 수 있습니다.
시작하기:
텍스트 데이터 추출
PDF, HTML, Microsoft® Word®, Excel® 파일 등, 단일 파일이나 대규모 파일 모음에서 텍스트 데이터를 MATLAB으로 가져올 수 있습니다.
텍스트 시각화
단어 구름 및 텍스트 산점도 플롯을 사용하여 텍스트 데이터셋을 시각적으로 탐색할 수 있습니다.
언어 지원
Text Analytics Toolbox는 영어, 일본어, 독일어, 한국어에 대한 언어별 전처리 기능을 제공합니다. 대부분의 함수는 기타 언어의 텍스트로도 작업할 수 있습니다.
텍스트 데이터 정리
하이 레벨 필터링 함수를 적용하여 URL, HTML 태그, 구두점 등의 관련 없는 내용을 삭제하고, 철자를 수정할 수 있습니다.
불용어의 필터링 및 어근 형식으로의 단어 정규화
일반적인 단어, 등장 빈도가 너무 높거나 너무 낮은 단어, 매우 길거나 매우 짧은 단어를 필터링하여 분석에서 유의미한 텍스트 데이터의 우선순위를 정할 수 있습니다. 어근 형식으로의 어간 추출 또는 사전 형식으로의 표제어 추출을 통해 단어집의 크기를 줄이고 문서의 넓은 의미 또는 감성에 집중할 수 있습니다.
언어적 특징 추출
토큰화 알고리즘을 사용하여 원시 텍스트를 단어 모음으로 자동 분할할 수 있습니다. 문장 경계, 품사 세부 정보 등의 문맥 관련 정보를 추가할 수 있습니다.
단어 및 N-gram 계산
텍스트 데이터를 숫자로 표현할 수 있도록 단어 빈도 통계량을 계산할 수 있습니다.
단어 임베딩 및 인코딩
word2vec CBOW(Continuous Bag-of-Words) 및 skip-gram 모델과 같은 단어 임베딩 모델을 훈련할 수 있습니다. fastText 및 GloVe 등의 사전 훈련된 모델을 가져올 수 있습니다.
토픽 모델링
LDA(잠재 디리클레 할당)와 LSA(잠재 의미 분석) 같은 머신러닝 알고리즘을 사용하여 대규모 텍스트 데이터셋에서 기본 패턴, 추세, 복잡한 관계를 발견하고 시각화할 수 있습니다.
문서 요약 및 키워드 추출
하나 이상의 문서에서 요약과 관련 키워드를 자동으로 추출하고 문서의 유사도과 중요도를 평가할 수 있습니다.
감성 분석
텍스트 데이터로 표현된 태도와 의견을 식별하여 긍정적 진술, 중립적 진술, 부정적 진술로 분류할 수 있습니다. 실시간으로 감정을 예측할 수 있는 모델들을 구축할 수 있습니다.
Transformer 모델
텍스트 데이터에 BERT, FinBERT, 및 GPT-2 등의 Transformer 모델을 활용하여 감성 분석, 분류, 요약 같은 작업을 위한 전이 학습을 수행할 수 있습니다.
텍스트 분류
딥러닝을 통해 텍스트의 범주를 식별할 수 있는 단어 임베딩으로 텍스트 설명을 분류할 수 있습니다.
텍스트 생성
관찰한 텍스트를 기반으로 딥러닝을 사용하여 새로운 텍스트를 생성할 수 있습니다.