Text Analytics Toolbox는 텍스트 데이터의 전처리, 분석 및 모델링을 위한 알고리즘과 시각화 기능을 제공합니다. 이 툴박스로 만든 모델은 감성 분석, 예측 정비 및 토픽 모델링 등의 응용 분야에 사용할 수 있습니다.
Text Analytics Toolbox에는 장비의 로그 데이터, 뉴스 피드, 설문 조사, 작업자 보고서, 소셜 미디어 등 각종 출처의 원시 텍스트를 처리할 수 있는 다양한 툴이 있습니다. 널리 사용되는 파일 형식에서 텍스트를 추출하고 원시 텍스트를 전처리하며 개별 단어를 추출하고 텍스트를 숫자형 표현으로 변환하며 통계 모델을 구축할 수 있습니다.
LSA, LDA 및 단어 임베딩 등의 머신러닝 기법을 사용하여, 고차원 텍스트 데이터셋에서 군집을 찾고 특징을 생성할 수 있습니다. Text Analytics Toolbox로 생성한 특징을 다른 데이터 소스의 특징과 결합해 텍스트, 숫자, 및 기타 유형의 데이터를 활용하는 머신러닝 모델을 구축할 수 있습니다.
텍스트 가져오기 및 시각화
PDF, HTML 및 Microsoft® Word 파일 등 단일 파일 또는 대규모 파일 모음의 텍스트 데이터를 MATLAB으로 가져올 수 있습니다. 워드 클라우드 및 텍스트 산점도 플롯을 사용하여 텍스트 데이터셋을 시각적으로 살펴볼 수 있습니다.
텍스트 정리 및 전처리
상위수준의 필터링 함수를 적용하여 URL, HTML 태그 및 구두점 등의 불필요한 콘텐츠를 제거할 수 있습니다. 철자를 교정하고 불용어를 필터링하며 단어를 원형으로 정규화할 수 있습니다.
구조화된 형식으로 텍스트 변환
토큰화 알고리즘을 사용하여 언어적 특징을 추출하고, 단어 빈도 통계를 계산하여 텍스트 데이터를 수치적으로 표현하고, word2vec 및 skip-gram 같은 단어 임베딩 모델을 훈련시킬 수 있습니다.
AI를 적용한 텍스트 분석
LSA, LDA 및 LSTM 등의 머신러닝 또는 딥러닝 모델을 텍스트 데이터에 피팅할 수 있습니다. BERT, FinBERT, GPT-2 등의 트랜스포머 모델을 활용하여 텍스트 데이터를 사용한 전이 학습을 수행할 수 있습니다.
대규모 언어 모델
OpenAI™ Chat Completions API에 MATLAB을 연결할 수 있습니다. MATLAB 환경 내에서 GPT 모델의 자연어 처리 기능을 활용하여 텍스트 요약 및 채팅 등의 작업을 수행할 수 있습니다.
엔지니어를 위한 텍스트 분석
센서 및 텍스트 로그 데이터를 기반으로 예측 정비 일정을 개발할 수 있습니다. 요구사항 정형화 및 규정 준수 검사를 자동화할 수 있습니다.
문서 분석
토픽 모델링으로 텍스트를 분석하여 숨겨진 패턴, 추세 및 복잡한 관계를 발견하고 시각화할 수 있습니다. 문서를 요약하고 키워드를 추출하며 문서 중요도 및 유사도를 평가할 수 있습니다.
감성 분석
텍스트 데이터로 표현된 태도와 의견을 식별하여 긍정적, 중립적 또는 부정적 진술로 분류할 수 있습니다. 실시간으로 감성을 예측할 수 있는 모델을 구축할 수 있습니다.
텍스트 생성 및 분류
관측된 텍스트에 기반한 새로운 텍스트 생성 작업 및 범주를 식별할 수 있는 단어 임베딩을 통한 텍스트 설명 분류 작업에 딥러닝을 사용할 수 있습니다.