챕터 4
지도 학습 적용
지도 학습을 고려해야 하는 경우
지도 학습 알고리즘은 알려진 입력 데이터셋(훈련 세트)과 그 데이터에 대한 알려진 응답 변수(출력값)로 모델을 훈련하여 새로운 입력 데이터에 대한 응답 변수에 맞는 합리적인 예측 변수를 생성합니다. 예측하려는 출력값에 대해 기존 데이터가 있다면 지도 학습을 사용할 수 있습니다.
모든 지도 학습 기법은 분류 또는 회귀의 한 형태입니다.
분류 기법은 예를 들어 이메일이 진짜인지 스팸인지 또는 종양의 크기가 작은지, 중간인지, 큰지와 같은 이산 응답 변수를 예측합니다. 분류 모델은 데이터를 범주로 분류하도록 훈련됩니다. 응용 사례로는 의료 영상, 음성 인식, 신용 평가 등이 있습니다.
회귀 기법은 예를 들어 온도 변화 또는 전기 수요의 변동과 같은 연속 응답 변수를 예측합니다. 응용 사례로는 주가 예측, 손글씨 인식, 음향 신호 처리 등이 있습니다.
올바른 알고리즘 선택
챕터 1에서 살펴본 것처럼 머신러닝 알고리즘을 선택하는 것은 시행착오를 거치는 과정입니다. 아래와 같은 알고리즘의 특정 특징 간에는 상충관계가 존재하기도 합니다.
- 훈련 속도
 - 메모리 사용량
 - 새로운 데이터에 대한 예측 정확도
 - 투명성 또는 해석 가능성 (알고리즘의 예측에 대한 이유를 쉽게 이해할 수 있는 정도)
 
일반적인 분류 알고리즘
로지스틱 회귀
작동 방식
한 클래스 또는 다른 클래스에 속하는 이진 응답 변수의 확률을 예측할 수 있는 모델에 피팅합니다. 로지스틱 회귀는 그 단순성으로 인해 일반적으로 이진 분류 문제의 시작점으로 사용됩니다.가장 적합한 용례
- 데이터를 하나의 선형 경계로 명확하게 구분할 수 있는 경우
 - 더 복잡한 분류 방법을 평가하기 위한 기준으로 사용하려는 경우
 
		
	
					
	
				kNN (k--최근접이웃)
작동 방식
kNN은 데이터셋에서 최근접이웃의 클래스를 기반으로 객체를 분류합니다. kNN 예측에서는 서로 가까운 객체가 유사하다고 가정합니다. 유클리드 거리, 도시 블록 거리, 코사인 거리 및 체비쇼프 거리 등의 거리 측정법이 최근접이웃을 찾는 데 사용됩니다.가장 적합한 용례
- 벤치마크 학습 규칙을 구축하기 위한 간단한 알고리즘이 필요한 경우
 - 훈련된 모델의 메모리 사용량이 덜 중요한 경우
 - 훈련된 모델의 예측 속도가 덜 중요한 경우
 
SVM (서포트 벡터 머신)
작동 방식
한 클래스의 모든 데이터 점을 다른 클래스의 데이터 점과 구분하는 선형 결정 경계(초평면)를 찾아서 데이터를 분류합니다. SVM에 가장 적합한 초평면은 데이터가 선형적으로 분리 가능한 경우 두 클래스 사이의 마진이 가장 큰 초평면입니다. 데이터를 선형적으로 분리할 수 없는 경우 손실 함수를 사용하여 잘못 분류된 점에 벌점을 줍니다. SVM은 때때로 커널 변환을 사용하여 비선형적으로만 분리 가능한 데이터를 선형 결정 경계를 찾을 수 있는 더 높은 차원으로 변환하기도 합니다.가장 적합한 용례
- 클래스가 정확히 두 가지인 데이터의 경우 (오류 수정 출력 코드라는 기법을 사용하여 다중클래스 분류에도 사용 가능)
 - 비선형적으로 분리 가능한 고차원 데이터의 경우
 - 단순하고 해석하기 쉬우며 정확한 분류기가 필요한 경우
 
신경망
작동 방식
인간의 뇌에서 영감을 받아 개발된 신경망은 입력과 원하는 출력을 연관시키는 고도로 연결된 뉴런의 망으로 구성됩니다. 신경망은 주어진 입력이 올바른 응답에 매핑되도록 연결의 강도를 반복적으로 수정하여 훈련됩니다.가장 적합한 용례
- 고도의 비선형 시스템을 모델링하는 경우
 - 데이터가 점진적으로 발생하여 모델을 지속적으로 업데이트하려는 경우
 - 입력 데이터에 예기치 않은 변경이 있을 수 있는 경우
 - 모델 해석 가능성이 중요하지 않은 경우
 
나이브 베이즈
작동 방식
나이브 베이즈 분류기는 한 클래스에서 특정 특징의 존재 여부가 다른 특징의 존재 여부와 무관하다고 가정합니다. 이 분류기는 데이터가 특정 클래스에 속할 가장 높은 확률에 따라 새로운 데이터를 분류합니다.가장 적합한 용례
- 여러 파라미터가 포함된 소규모 데이터셋의 경우
 - 해석하기 쉬운 분류기가 필요한 경우
 - 다수의 금융 및 의료 응용 사례에서 발생하듯 모델이 훈련 데이터에 존재하지 않는 시나리오를 접하게 되는 경우
 
판별분석
작동 방식
판별분석은 특징의 선형 결합을 찾아 데이터를 분류합니다. 판별분석에서는 서로 다른 클래스가 가우스 분포에 따라 데이터를 생성한다고 가정합니다. 판별분석 모델의 훈련에는 각 클래스에 대한 가우스 분포의 파라미터 찾는 작업이 수반됩니다. 분포 파라미터는 일차 함수 또는 이차 함수가 될 수 있는 경계를 계산하는 데 사용됩니다. 이러한 경계를 사용하여 새로운 데이터의 클래스가 판별됩니다.가장 적합한 용례
- 쉽게 해석할 수 있는 단순한 모델이 필요한 경우
 - 훈련 중 메모리 사용량이 중요한 경우
 - 빠른 예측이 가능한 모델이 필요한 경우
 
결정 트리
작동 방식
결정 트리를 사용하면 루트(시작)에서부터 리프 노드에 이르는 트리의 의사결정을 따라 데이터에 대한 응답을 예측할 수 있습니다. 트리는 예측 변수의 값과 훈련된 가중치를 비교하는 분기 조건으로 구성됩니다. 가지의 수와 가중치 값은 훈련 과정에서 결정됩니다. 모델을 단순화하기 위해 추가적인 수정 또는 가지치기가 사용될 수 있습니다.가장 적합한 용례
- 해석하기 쉽고 빠르게 피팅할 수 있는 알고리즘이 필요한 경우
 - 메모리 사용량을 최소화해야 하는 경우
 - 높은 예측 정확도가 요구되지 않는 경우
 
배깅 및 부스팅 결정 트리
작동 방식
이러한 앙상블 방법에서는 여러 '약한' 결정 트리가 하나의 '강한' 앙상블로 결합됩니다.배깅 결정 트리는 입력 데이터에서 부트스트랩 처리된 데이터에 대해 독립적으로 훈련된 트리로 구성됩니다.
부스팅에는 '약한' 학습기를 반복적으로 추가하고 각 약한 학습기의 가중치를 조정하여 오분류된 표본에 집중함으로써 강한 학습기를 생성하는 과정이 수반됩니다.
가장 적합한 용례
- 예측 변수가 범주형(이산)이거나 비선형적으로 동작하는 경우
 - 모델 훈련에 걸리는 시간이 덜 중요한 경우
 
일반 회귀 알고리즘
선형 회귀
작동 방식
선형 회귀는 연속 응답 변수를 하나 이상의 예측 변수의 일차 함수로 설명하는 데 사용되는 통계 모델링 기법입니다. 선형 회귀 모델은 해석이 간단하고 훈련이 쉽기 때문에 새로운 데이터셋의 가장 먼저 피팅해 보는 모델인 경우가 많습니다.가장 적합한 용례
- 해석하기 쉽고 빠르게 피팅할 수 있는 알고리즘이 필요한 경우
 - 더 복잡한 다른 회귀 모델을 평가하기 위한 기준으로 사용하려는 경우
 
		
	
					
	
				비선형 회귀
작동 방식
비선형 회귀는 실험 데이터의 비선형 관계를 설명할 수 있는 통계 모델링 기법입니다. 비선형 회귀 모델은 비선형 방정식으로 모델을 표현하는 모수적 모델로 일반적으로 가정됩니다.'비선형'이란 파라미터의 비선형 함수인 피팅 함수를 의미합니다. 예를 들어 피팅 파라미터가 b0, b1, b2인 경우, 방정식 y = b0+b1x+b2x2는 피팅 파라미터의 선형 함수인 반면, y = (b0xb1)/(x+b2)는 피팅 파라미터의 비선형 함수입니다.
가장 적합한 용례
- 데이터가 비선형 추세가 강하고 선형 공간으로 쉽게 변환할 수 없는 경우
 - 사용자 지정 모델을 데이터에 피팅하는 경우
 
가우스 과정 회귀 모델
작동 방식
GPR(가우스 과정 회귀) 모델은 연속 응답 변수의 값을 예측하는 데 사용되는 비모수적 모델입니다. 이 모델은 불확실성이 있는 경우 보간을 수행하기 위해 공간 분석 분야에서 널리 사용됩니다. GPR을 크리깅이라고도 합니다.가장 적합한 용례
- 지하수 분포에 대한 수문지질학 데이터와 같은 공간 데이터를 보간하는 경우
 - 자동차 엔진과 같은 복잡한 설계의 최적화를 용이하게 하는 대리 모델로 사용하려는 경우
 
SVM 회귀
작동 방식
SVM 회귀 알고리즘은 SVM 분류 알고리즘과 유사한 방식으로 작동하지만, 연속 응답을 예측할 수 있도록 수정되었습니다. SVM 회귀 알고리즘은 데이터를 분리하는 초평면을 찾는 대신, 오류에 대한 민감도를 최소화하기 위해 가능한 작은 파라미터 값을 사용하여 측정된 데이터에서 매우 작은 편차가 있는 모델을 찾습니다.가장 적합한 용례
- 대량의 예측 변수가 있는 고차원 데이터의 경우
 
일반화 선형 모델
작동 방식
일반화 선형 모델은 선형 방법을 사용하는 비선형 모델의 특수 사례입니다. 여기에는 입력의 선형 결합을 출력의 비선형 함수(연결 함수)에 피팅하는 작업이 수반됩니다.가장 적합한 용례
- 항상 양수로 예상되는 응답 변수와 같이 응답 변수가 비정규 분포를 갖는 경우
 
회귀 트리
작동 방식
회귀를 위한 결정 트리는 분류를 위한 결정 트리와 유사하지만, 연속 응답을 예측할 수 있도록 수정되었습니다.가장 적합한 용례
- 예측 변수가 범주형(이산)이거나 비선형적으로 동작하는 경우
 
		
	
					
	
				
추천하는 다음 단계
웹사이트 선택
번역된 콘텐츠를 보고 지역별 이벤트와 혜택을 살펴보려면 웹사이트를 선택하십시오. 현재 계신 지역에 따라 다음 웹사이트를 권장합니다:
또한 다음 목록에서 웹사이트를 선택하실 수도 있습니다.
사이트 성능 최적화 방법
최고의 사이트 성능을 위해 중국 사이트(중국어 또는 영어)를 선택하십시오. 현재 계신 지역에서는 다른 국가의 MathWorks 사이트 방문이 최적화되지 않았습니다.
미주
- América Latina (Español)
 - Canada (English)
 - United States (English)
 
유럽
- Belgium (English)
 - Denmark (English)
 - Deutschland (Deutsch)
 - España (Español)
 - Finland (English)
 - France (Français)
 - Ireland (English)
 - Italia (Italiano)
 - Luxembourg (English)
 
- Netherlands (English)
 - Norway (English)
 - Österreich (Deutsch)
 - Portugal (English)
 - Sweden (English)
 - Switzerland
 - United Kingdom (English)