Text Analytics Toolbox

 

Text Analytics Toolbox

텍스트 데이터 분석 및 모델링

 

Text Analytics Toolbox™는 텍스트 데이터의 전처리, 분석 및 모델링을 위한 알고리즘 및 시각화 기능을 제공합니다. 툴박스를 사용하여 만든 모델감정 분석, 건전성 예측관리 및 주제 모델링과 같은 응용 분야에 사용할 수 있습니다.

Text Analytics Toolbox에는 장비 로그, 뉴스 피드, 설문 조사, 운영자 보고서 및 소셜 미디어와 같은 소스의 원시 텍스트를 처리하기 위한 툴이 포함되어 있습니다. 널리 보급된 파일 형식에서 텍스트를 추출하고, 원시 텍스트를 전처리하고, 개별 단어를 추출하고, 텍스트를 수치 표현으로 변환하고, 통계 모델을 구축할 수 있습니다.

LSA, LDA 및 단어 임베딩과 같은 머신 러닝 기법을 사용하여 클러스터를 찾고 고차원 텍스트 데이터 세트에서 기능을 만들 수 있습니다. Text Analytics Toolbox로 만든 기능을 다른 데이터 소스의 기능과 결합하여 텍스트, 숫자 및 기타 유형의 데이터를 활용하는 머신 러닝 모델을 구축할 수 있습니다.

 

텍스트 데이터 가져오기 및 시각화

소셜 미디어, 뉴스 피드, 장비 로그, 보고서 및 설문 조사와 같은 소스에서 텍스트 데이터를 추출합니다.

텍스트 데이터 추출

PDF, HTML, Microsoft® Word® 및 Excel® 파일을 포함한 단일 파일 또는 대량 파일 모음에서 텍스트 데이터를 MATLAB®으로 가져옵니다.

Microsoft Word 문서 모음에서 텍스트 추출하기.

텍스트 시각화

단어 클라우드와 텍스트 산점도 플롯을 사용하여 시각적으로 텍스트 데이터 세트를 탐색합니다.

글꼴 크기와 색상을 사용하여 단어의 상대적 빈도를 보여주는 텍스트 산점도 플롯.

언어 지원

Text Analytics Toolbox는 영어와 일본어에 대한 언어별 전처리 기능을 제공합니다. 대부분의 기능은 다른 언어의 텍스트에서도 작동합니다.

일본어 텍스트 가져오기, 작성 및 분석.

텍스트 데이터 전처리

원시 텍스트에서 의미 있는 단어를 추출합니다.

텍스트 데이터 정리

하이 레벨의 필터링 기능을 사용하여 URL, HTML 태그 및 구두점과 같은 외부 내용물을 제거합니다.

가장 의미 있는 단어(우측)로 작업할 원시 텍스트(좌측)를 단순화합니다.

단어를 필터링하고 단어를 루트 형식으로 정규화하기

공통 단어, 너무 자주 또는 자주 나타나지 않는 단어, 매우 길거나 매우 짧은 단어를 필터링하여 분석에서 의미 있는 텍스트 데이터의 우선순위를 정합니다. 단어의 어간을 루트 형식으로 추출하거나 단어의 표제어를 사전 형식으로 추출하여 어휘를 줄이고 문서의 더 넓은 의미 또는 정서에 집중합니다.

문서에서 "a" 및 "of"와 같은 불용어 제거하기.

토큰, 문장 및 품사 식별하기

원시 텍스트를 토큰화 알고리즘을 사용하여 자동으로 단어 모음으로 분할합니다. 문장 경계, 품사 세부 정보 및 기타 관련 정보를 상황에 맞게 추가합니다.

재무 도표 및 기술 지표.

텍스트를 수치 형식으로 변환하기

머신 러닝 및 딥 러닝에 사용하기 위해 텍스트 데이터를 숫자 형식으로 변환합니다.

단어 및 N-그램 계산하기

텍스트 데이터를 수치로 나타내기 위해 단어 빈도 통계를 계산합니다.

모델에서 가장 자주 발생하는 단어를 식별하고 시각화합니다.

단어 임베딩 및 인코딩

word2vec CBOW(continuous bag-of-words)와 skip-gram 모델과 같은 단어 임베딩 모델을 학습합니다. fastText 및 GloVe를 포함한 사전 훈련된 모델을 가져옵니다.

단어 임베딩을 사용하여 텍스트 산점도 플롯에서 클러스터를 시각화합니다. 

텍스트 데이터를 활용한 머신 러닝

latent Dirichlet allocation(LDA)와 latent semantic analysis(LSA) 과 같은 머신 러닝 알고리즘을 사용하여 주제 모델링, 분류 및 차원 축소를 수행합니다.

주제 모델링

대량 텍스트 데이터 세트의 기본 패턴, 경향 및 복잡한 관계를 발견하고 시각화합니다.

폭풍 보고서 데이터에서 주제 식별하기.

텍스트 데이터를 활용한 딥러닝

장단기 메모리 네트워크(LSTM)와 같은 딥러닝 네트워크를 사용하여 감정 분석및 분류를 수행합니다.

감정 분석

텍스트 데이터에 표현된 태도와 의견을 확인하여 진술을 긍정적, 중립적 또는 부정적으로 분류합니다. 실시간으로 정서를 예측할 수 있는 모델을 구축합니다.

긍정적 정서와 부정적 정서를 예측하는 단어를 식별합니다. 

텍스트 분류

딥러닝을 통해 텍스트 범주를 식별할 수 있는 단어 임베딩을 사용하여 텍스트 설명을 분류합니다.

텍스트 데이터를 분류하기 위해 심층 신경망 훈련하기.

텍스트 생성

딥러닝을 사용하여 관찰된 텍스트를 기반으로 새로운 텍스트를 생성합니다.

Jane Austen의 오만과 편견 및 딥러닝 LSTM 네트워크를 이용한 텍스트 생성. 

최신 기능

독일어 지원

토큰화, 불용어 제거, 추출, 품사 태깅을 포함한 독일어 텍스트의 분석을 수행합니다.

편집 거리

Levenshtein 거리 및 기타 거리 측정값을 사용하여 문자열과 문서 간의 유사성을 찾습니다.

명명된 엔터티 인식

텍스트에서 위치, 조직, 사람 이름 및 기타 명명된 엔터티를 감지합니다.

토근화 및 전처리

사용자 지정 토큰의 패턴을 지정 및 감지하고 토큰화된 문서의 단어 또는 구문을 바꿉니다.

딥러닝 예제

컨벌루션 네트워크를 사용하여 텍스트 데이터를 분류하는 방법을 알아봅니다(Deep Learning Toolbox 필요).

이 기능과 그에 상응하는 함수에 대한 자세한 내용은 릴리스 정보를 참조하십시오.

딥러닝을 활용한 감정 분석

주어진 용어가 어떻게 인식되는지 이해하려면 라이브 Twitter 데이터의 정서를 분석합니다.

질문이 있습니까?

Text Analytics Toolbox 기술 전문가인 Sohini Sarkar 에게 문의하십시오.

무료 평가판 받기

30일 동안 사용해 보세요.

다운로드

구매하기

제품별 가격을 확인하세요.

학생이세요?

학생용 MATLAB 및 Simulink를 확인하세요.

자세히 보기