Statistics and Machine Learning Toolbox

통계 및 머신러닝을 사용하여 데이터를 분석하고 모델링할 수 있습니다.

Statistics and Machine Learning Toolbox는 데이터를 나타내고, 분석하고, 모델링하는 함수 및 앱을 제공합니다. 탐색적 데이터 분석을 위해 기술 통계량, 시각화, 군집화를 사용하고, 데이터에 확률 분포를 피팅하며, 몬테카를로 시뮬레이션을 위해 난수를 생성하고, 가설 검정을 수행할 수 있습니다. 회귀와 분류 알고리즘을 통해 데이터로부터 추론을 도출하고, 분류 학습기 및 회귀 학습기 앱을 사용해 대화형 방식으로, 또는 AutoML을 사용해 프로그래밍 방식으로 예측 모델을 구축할 수 있습니다.

다차원 데이터 분석 및 특징 추출에 대해서는 최고의 예측 검정력을 갖는 변수를 식별할 수 있도록 PCA(주성분 분석), 정규화, 차원 축소, 특징 선택 방법을 제공합니다.

SVM(서포트 벡터 머신), 부스팅 결정 트리, 얕은 신경망, k-평균 및 기타 군집화 방법 등 다양한 지도, 준지도, 비지도 머신러닝 알고리즘을 제공합니다. 부분 종속성 플롯, 섀플리 값, LIME 등의 해석 가능성 기법을 적용하고, 임베디드 기기로의 배포를 위해 자동으로 C/C++ 코드를 생성할 수 있습니다. 네이티브 Simulink 블록을 통해 시뮬레이션 및 모델 기반 설계와 함께 예측 모델을 사용할 수 있습니다. 툴박스의 많은 알고리즘은 메모리에 담기에 너무 큰 데이터셋에 대해서 사용할 수 있습니다.

Statistics and Machine Learning Toolbox란?

기술 통계량 및 시각화

대화형 및 시각적 그래픽과 기술 통계량을 사용한 통계 플로팅을 통해 데이터를 탐색할 수 있습니다. 중심 경향성, 산포도, 형상, 상관관계, 공분산 등의 척도를 포함한 기술 통계량을 통해 대규모 데이터셋도 빠르게 이해하고 표현할 수 있습니다.

문서 | 예제

군집 분석

K-평균, 계층적, DBSCAN, 및 기타 군집화 방법을 적용하고 데이터를 그룹 또는 군집으로 나눠 패턴과 특징을 식별할 수 있습니다. 다양한 평가 기준을 사용하여 데이터의 최적 군집 개수를 파악할 수 있습니다. 이상 감지를 통해 이상값과 특이값을 식별할 수 있습니다.

문서 | 예제

ANOVA

표본 분산을 다양한 요인에 할당해 보고 변이가 다양한 인구 집단 내부에서 발생하는지 아니면 집단 간에 발생하는지 파악할 수 있습니다. 일원, 이원, 다원, 다변량, 비모수적 ANOVA와 ANOCOVA(공분산분석), RANOVA(반복 측정 분산분석)를 사용할 수 있습니다.

문서 | 예제

회귀

회귀 학습기 앱을 사용하거나 프로그래밍 방식으로 선형 회귀, 가우스 과정, 서포트 벡터 머신, 신경망, 앙상블 등의 모델을 훈련시키고 평가할 수 있습니다.

문서 | 예제

분류

분류 학습기 앱을 사용하거나 프로그래밍 방식으로 로지스틱 회귀, 서포트 벡터 머신, 부스팅 트리, 얕은 신경망 등의 모델을 훈련시키고 검증할 수 있습니다.

문서 | 예제

NCA를 통해 모델의 정확도를 가장 잘 보존하는 특징을 선택할 수 있습니다.

차원 축소 및 특징 추출

영상, 신호, 텍스트, 숫자형 데이터로부터 특징을 추출할 수 있습니다. 새로운 특징을 반복적으로 탐색하고 생성하고 성능을 최적화하는 특징을 선택할 수 있습니다. 기존 특징을 새로운 예측 변수로 변환한 후에 덜 기술적인 특징을 버리거나 자동 특징 선택을 적용하여 차원을 축소할 수 있습니다.

문서 | 예제

확률 분포

연속 분포와 이산 분포를 피팅하고 통계 플롯을 사용하여 적합도를 평가하며 40가지 이상의 분포에 대해 확률 밀도 함수와 누적 분포 함수를 계산할 수 있습니다.

문서 | 예제

가설 검정

표본에서 나온 통계적 증거를 기반으로 모집단에 관한 추론을 도출할 수 있습니다. 하나의 표본, 표본 쌍 또는 독립 표본에 대해 T-검정, 분포 검정 및 비모수적 검정을 수행할 수 있습니다. 자동교정 및 임의성을 검정하고 분포를 비교할 수 있습니다.

문서 | 예제

산업 통계

효과와 데이터의 추세를 통계적으로 분석할 수 있습니다. 어떻게 데이터 입력값을 조작하여 데이터 출력값에 미치는 영향에 대한 정보를 생성할지에 관한 실제 계획을 만들고 테스트하는 실험을 설계할 수 있습니다. 중도절단을 하거나 하지 않고 고장 수명 데이터를 시각화 및 분석하며 산업 공정의 품질을 모니터링하고 평가할 수 있습니다.

문서 | 예제