지도학습

머신러닝 기법을 사용하여 알려진 입력 및 응답 데이터에서 예측 모델 구축하기

지도학습은 가장 일반적인 유형의 머신러닝 알고리즘입니다. 지도학습은 알려진 데이터셋(훈련 데이터셋)을 사용하여 알려진 입력 데이터(특징) 및 알려진 응답 변수의 집합으로 알고리즘을 훈련해서 예측을 수행합니다. 훈련 데이터셋에는 원하는 출력 또는 응답 변수 값과 쌍을 이루는 레이블 지정된 입력 데이터가 포함됩니다. 지도학습 알고리즘은 훈련 데이터셋에서 특징과 출력 데이터 간의 관계를 찾은 후 새로운 데이터셋에 대한 응답 변수 값을 예측하여 모델을 만들 방안을 모색합니다.

지도학습을 적용하기 전에 종종 비지도학습을 사용해서 입력 데이터 내 패턴을 발견해 특징이 될 수 있는 후보를 식별하고, 특징 엔지니어링을 통해 이런 패턴을 지도학습에 더 적합한 형태로 변환하게 됩니다. 특징 외에도 훈련 세트 내 모든 관측값에 대한 올바른 범주 또는 응답도 식별해야 하는데, 이는 극히 노동 집약적인 단계입니다. 준지도 학습을 사용하면 매우 제한된 레이블 지정 데이터만을 사용해서 모델을 훈련할 수 있으므로 레이블 지정에 드는 노력이 줄어듭니다.

알고리즘이 훈련된 다음에는 훈련에 사용되지 않은 테스트 데이터셋을 사용해서 알고리즘의 성능을 예측하고 검증하는 경우가 일반적입니다. 정확한 성능 결과를 얻기 위해서는 훈련 세트와 테스트 세트가 모두 “현실”을 잘 반영하는 것이 중요합니다(즉, 프로덕션 환경과 모델의 데이터가 모두 올바르게 검증된 상태여야 함).

모델 검증에 대한 Q&A

Deep Learning Toolbox™Statistics and Machine Learning Toolbox™를 사용하여 MATLAB®에서 예측 지도학습 모델을 훈련, 검증, 조정할 수 있습니다.

지도학습 알고리즘 범주

분류: 데이터를 특정 클래스로 구분할 수 있는 범주형 응답 변수 값에 사용됩니다. 이진 분류 모델에는 두 개의 클래스가 있고 다중클래스 분류 모델은 그 이상의 클래스 수를 갖습니다. MATLAB에서 분류 학습기 앱을 사용하여 분류 모델을 훈련할 수 있습니다.

일반적인 분류 알고리즘에는 다음이 포함됩니다.

회귀: 수치적 연속 응답 변수 값에 사용됩니다. MATLAB에서 회귀 학습기 앱을 사용하여 회귀 모델을 훈련할 수 있습니다.

일반적인 회귀 알고리즘에는 다음이 포함됩니다.

지도학습 응용 분야

지도학습은 금융 응용 분야(신용 평가, 알고리즘 트레이딩, 채권 분류), 영상 및 비디오 응용 분야(객체 분류 및 추적), 산업 응용 분야(이상값 감지), 예측 정비(장비 수명 추정), 생물학 응용 분야(종양 감지, 신약 개발), 에너지 응용 분야(가격 및 부하 예측)에 사용됩니다.

참조: Statistics and Machine Learning Toolbox, Deep Learning Toolbox, 머신러닝, 비지도 학습, AdaBoost, 선형 회귀, 비선형 회귀, 데이터 피팅, 데이터 분석, 수학적 모델링, 예측 모델링, 인공 지능, AutoML, 정규화