Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

통계 및 머신 러닝을 이용한 데이터 분석 및 모델링

 

Statistics and Machine Learning Toolbox™는 데이터를 기술, 분석, 모델링하기 위한 함수와 앱을 제공합니다. 탐색적 자료 분석을 위한 기술 통계 및 플롯을 사용하고 데이터에 확률 분포를 피팅하고 Monte Carlo 시뮬레이션에서 난수를 생성하며 가정 테스트를 수행할 수 있습니다. 회귀 및 분류 알고리즘을 통해 데이터로부터 추론을 하고 예측 모델을 만들 수 있습니다.

다차원 데이터 분석을 위해, Statistics and Machine Learning Toolbox는 특징 선택, 단계적 회귀, PCA(주성분분석), 정규화 및 모델에 영향을 주는 기능 또는 변수를 파악할 수 있는 기타 차원 축소 기법을 제공합니다.

이 툴박스는 서포트 벡터 머신(SVM), 부스티드(boosted) 및 배깅(bagged) 결정 트리, k-최근접이웃, k-평균(k-mean), k-중앙개체(k-medoid), 계층적 군집, 가우시안 혼합 모델, 히든 마르코프 모델을 포함한 지도식 및 비지도식 머신 러닝 알고리즘을 제공합니다. 너무 커서 메모리에 저장할 수 없는 데이터 세트에 대한 계산에 많은 통계 및 머신 러닝 알고리즘을 사용할 수 있습니다.

탐색적 자료 분석

대화형 그래픽을 통한 통계 플로팅과 기술 통계를 통해 데이터를 탐색합니다. 군집을 통해 패턴과 특징을 식별합니다.

시각화

확률 플롯, 상자 플롯, 히스토그램, 분위수-분위수 플롯 및 덴드로그램, 행렬도, Andrews 플롯 등 다변량 분석용 고급 플롯을 이용하여 데이터를 시각적으로 탐색하십시오.

다차원 산점도 플롯을 이용하여 변수 간의 관계를 탐색합니다.

기술 통계

상관 관계가 높은 숫자 몇 개를 이용하여 대량의 데이터 세트를 빠르게 이해하고 기술합니다.

그룹 평균과 분산을 이용하여 데이터를 탐색합니다.

클러스터 분석

k-평균(k-mean), k-중앙개체(k-medoid), DBSCAN, 계층적 군집, 가우시안 혼합 모델 및 히든 마르코프 모델을 이용해 데이터를 그룹화하여 패턴을 발견합니다.

2개의 동심 그룹에 DBSCAN을 적용합니다.

특징 추출과 차원 축소

원시 데이터를 머신 러닝에 가장 적합한 특징으로 변환합니다. 반복적으로 탐색하고 새 특징을 생성하며, 성능을 최적화하는 특징을 선택합니다.

특징 추출

스파스 필터링(sparse filtering) 및 복원(reconstruction) ICA 등 비지도 학습 기법을 이용하여 데이터로부터 특징을 추출합니다. 특수 기법을 이용하여 이미지, 신호, 텍스트, 숫자형 데이터에서 특징을 추출할 수도 있습니다.

모바일 장치에서 제공된 신호에서 특징을 추출합니다. 

특징 선택

데이터 모델링에서 최고의 예측력을 제공하는 특징 서브셋을 자동으로 식별합니다. 특징 선택 메서드에는 단계적 회귀, 순차적 특징 선택, 정규화, 앙상블 메서드가 포함됩니다.

NCA는 모델의 정확도를 대부분 보존하는 특징을 선택하는 데 도움이 됩니다.

특징 변환 및 차원 축소

기존의 미분류된 특징을 덜 기술적인 특징을 버릴 수 있는 새로운 예측 변수로 변환하여 차원을 축소합니다. 특징 변환 메서드에는 PCA, 요인 분석, NMF(Nonnegative Matrix Factorization) 등이 있습니다.

PCA는 많은 변수를 정보의 대부분을 보존하는 몇몇 직교 변수에 투사합니다.

머신 러닝

대화형 앱을 이용하여 예측적 분류 모델과 회귀 모델을 구축합니다. 자동으로 특징을 선택하고 하이퍼파라미터를 최적화하여 모델을 튜닝합니다.

예측 모델을 학습, 검증, 튜닝

다양한 머신 러닝 알고리즘을 비교하고 특징을 선택하며, 하이퍼파라미터를 조정하고 예측 성능을 평가합니다.

분류화

하나 또는 여러 예측 변수의 함수로서 categorical형 응답 변수를 모델링합니다. 로지스틱 회귀, SVM, 부스티드(boosted) 및 배깅(bagged) 결정 트리, 나이브 베이즈, 판별분석, k-최근접이웃 등 다양한 파라미터 및 비파라미터 분류 알고리즘을 사용합니다.

Classification Learner 앱을 사용하여 분류기를 대화형으로 학습시킵니다.

자동화된 모델 최적화

자동으로 하이퍼파라미터를 튜닝하고 특징을 선택하며 비용 행렬로 데이터 세트 불균형을 해결합니다.

베이지안 최적화를 사용하여 하이퍼파라미터를 효율적으로 최적화합니다.

회귀분석과 및 분산분석

선형 및 비선형 회귀, 혼합 효과 모델, 일반화 선형 모델, 비파라미터 회귀를 사용하여 연속적 응답 변수를 하나 또는 여러 예측 변수의 함수로 모델링합니다. ANOVA를 사용하여 분산을 다양한 소스에 할당합니다.

선형 및 비선형 회귀

많은 선형 및 비선형 회귀 알고리즘에서 선택한 복수의 예측 변수 또는 응답 변수를 사용하여 복잡한 시스템의 동작을 모델링합니다. 멀티 레벨 또는 계층적, 선형, 비선형 및 일반화 선형 혼합 효과 모델을 중첩 및/또는 교차 랜덤 효과로 피팅하여 종적 분석 또는 패널 분석, 반복적 측정 및 성장 모델링을 수행합니다.

Regression Learner 앱을 이용하여 회귀 모델을 대화형으로 피팅합니다.

비파라미터 회귀

SVM, 랜덤 포레스트, 가우시안 프로세스, 가우시안 커널 등 예측 변수와 응답의 관계를 기술하는 모델을 지정하지 않고, 정확한 피팅을 생성합니다.

 분위수 회귀를 사용하여 이상값을 탐지합니다.

분산분석(ANOVA)

샘플 분산을 여러 소스에 할당하여 편차가 여러 모집단 내에서 발생하는지 또는 여러 모집단 간에 발생하는지 확인합니다. ANOCOVA(analysis of covariance), RANOVA(repeated measures analysis of variance)뿐만 아니라 일원, 이원, 다원, 다변량, 비파라미터 ANOVA를 사용합니다.

다원 ANOVA를 사용하여 그룹을 테스트합니다.

확률 분포와 가설 테스트

분포를 데이터에 피팅합니다. 표본간 차이가 유의미한지 또는 임의 데이터 편차와 일치하는지 분석합니다. 다양한 분포로부터 난수를 생성합니다.

확률 분포

연속 분포와 이산 분포를 피팅하고 통계 플롯을 사용하여 피팅 적합도를 평가하며 40가지 이상의 분포에 대해 확률 밀도 함수와 누적 분포 함수를 계산합니다.

Distribution Fitter 앱을 사용하여 대화형으로 분포를 피팅합니다.

난수 생성

피팅된 확률 분포 또는 구성된 확률 분포로부터 의사난수 및 준난수 스트림을 생성합니다.

대화형으로 난수를 생성합니다.

가설 검정

샘플 하나, 샘플 쌍 또는 독립 샘플에 대해 t-테스트, 분포 테스트(Chi-square, Jarque-Bera, Lilliefors, Kolmogorov-Smirnov) 및 비모수 통계 테스트를 수행합니다. 자동교정과 무작위성을 테스트하고 분포를 비교합니다(이원 샘플 Kolmogorov-Smirnov).

단측 t-검정의 기각 영역.

산업 통계

영향과 데이터 추세를 통계적으로 분석합니다. 맞춤형 실험 계획 및 통계적 공정 제어와 같은 산업용 통계 기법을 적용합니다.

실험 계획(DOE)

맞춤형 실험 계획을 정의, 분석, 시각화합니다. 데이터 입력을 동시에 어떻게 조작하여 데이터 출력에 미치는 영향에 대한 정보를 생성할지에 관한 실제 계획을 만들고 테스트합니다.

박스 벤켄 설계를 적용하여 고차원 반응 표면을 생성합니다.

SPC(통계적 공정 제어)

공정 변동을 평가하여 제품 또는 공정을 모니터링하고 개선합니다. 제어 차트를 생성하고 공정 능력을 추정하고 계측 반복성과 재현성을 조사합니다.

제어 차트를 사용하여 제조 공정을 모니터링합니다.

신뢰도 및 생존 분석

콕스(Cox) 비례 위험 회귀를 수행하여 중도절단(censoring)이 있는 경우와 없는 경우의 평균 고장 시간을 시각화하고 분석한 후 분포를 피팅합니다. 경험적 위험, 생존자, 누적 분포 함수, 커널 밀도 추정치를 계산합니다.

'중도절단' 값의 예로서의 장애 데이터.

빅 데이터와 클라우드로 확장

통계와 머신 러닝 기법을 메모리 사이즈를 넘는 빅데이터에 적용합니다. 클러스터와 클라우드 인스턴스에 대한 통계 계산과 머신 러닝 모델 교육 속도를 높입니다.

Tall형 배열을 사용한 빅 데이터 분석

Tall형 배열과 표, 많은 분류, 회귀, 군집 알고리즘을 이용하여 코드를 변경하지 않고는 메모리에 피팅되지 않는 데이터 세트에 대해 모델을 교육합니다.

Parallel Computing Toolbox 또는 MATLAB Parallel Server™를 사용하여 계산 속도를 높입니다.

클라우드 및 분산 컴퓨팅

클라우드 인스턴스를 사용하여 통계 및 머신 러닝 계산 속도를 높입니다. MATLAB Online™에서 머신 러닝 워크플로 전체를 수행합니다.

Amazon 또는 Azure 클라우드 인스턴스에 대한 계산을 수행합니다.

배포 및 코드 생성

통계와 머신 러닝을 임베디드 시스템에 배포하고 C 코드를 활용하여 계산량이 많은 계산의 속도를 높이며 기업용 시스템과 통합합니다.

코드 생성

분류화, 회귀 알고리즘, 기술 통계, 확률 분포를 추론할 수 있는 이식 가능하고 읽기 가능한 C 또는 C++ 코드를 MATLAB CoderTM를 활용하여 생성합니다. MATLAB 함수 블록과 시스템 블록을 통해 기계 학습 모델을 사용하여 고성능(high fidelity)의 시뮬레이션에 대한 검증 및 확인 속도를 높입니다.

C 코드 생성 또는 MATLAB 코드 컴파일링의 두 가지 배포 경로가 있습니다.

응용 프로그램 및 기업용 시스템과 통합

MATLAB Compiler™를 활용하여 통계 및 머신 러닝 모델을 독립형, MapReduce, Spark™ 응용 프로그램, 웹 응용 프로그램, Microsoft® Excel® 추가 기능으로 배포합니다. MATLAB Compiler SDK™를 사용하여 C/C++ 공유 라이브러리, Microsoft .NET 어셈블리, Java® 클래스, Python® 패키지를 구축합니다.

MATLAB Compiler를 사용하여 대기 질 분류 모델을 통합합니다.

배포된 모델 업데이트

C/C++ 예측 코드를 재생성하지 않고 배포된 모델의 파라미터를 업데이트합니다.

코드 생성 및 모델 업데이트 워크플로.

Latest Features

Machine Learner Apps

Optimize hyperparameters in Classification Learner and Regression Learner, and specify misclassification costs in Classification Learner

Code Generation

Update a deployed decision tree or linear model without regenerating code, and generate C/C++ code for probability distribution functions (requires MATLAB Coder)

Code Generation

Generate fixed-point C/C++ code for the prediction of an SVM model (requires MATLAB Coder and )

Spectral Clustering

Perform spectral clustering using spectralcluster

Feature Ranking

Rank numeric and categorical features by their importance using a minimum redundancy maximum relevance (MRMR) algorithm and rank features for unsupervised learning using Laplacian scores

See the release notes for details on any of these features and corresponding functions.

최신 기능

머신 러닝 앱

분류 학습기 및 회귀 학습기에서 하이퍼파라미터를 최적화하고 분류 학습기에서 오분류 cost 함수 지정

코드 생성

코드 재생성 없이 배포된 결정 트리 또는 선형 모델을 업데이트하고 확률 분포 함수 C/C++ 코드 생성(MATLAB C5oder 필요)

코드 생성

SVM 모델 예측을 위해 고정소수점 C/C++ 코드 생성(MATLAB Coder 및 Fixed-Point Designer 필요)

스펙트럼 군집화

spectralcluster를 사용하여 스펙트럼 군집화 수행

특징 순위 지정

MRMR(Minimum Redundancy Maximum Relevance) 알고리즘을 사용하여 중요도를 기준으로 숫자형 및 categorical형 특징에 순위를 지정하고 라플라스 점수를 사용하여 비지도 학습 특징에 순위 지정

이 기능과 그에 상응하는 함수에 대한 세부 정보는 릴리스 정보를 참조하십시오.

무료 평가판 받기

30일 동안 사용해 보세요.

다운로드

구매하기

제품별 가격을 확인하세요.

학생이세요?

학생용 MATLAB 및 Simulink를 확인하세요.

자세히 보기