지도 학습이란 레이블이 지정된 데이터를 사용해 모델을 훈련시켜 예측을 수행하는 머신러닝 기법의 한 유형입니다. 지도 학습에서 모델은 알려진 입력 데이터셋과 응답 변수를 사용하여 분류 또는 회귀 작업을 수행합니다.
지도 학습의 작동 원리
지도 학습은 가장 널리 사용되는 머신러닝 유형입니다. 알려진 데이터셋(훈련 데이터셋이라고 함)을 알려진 입력 데이터셋(특징이라고 함) 및 알려진 응답 변수와 함께 사용하여 알고리즘을 훈련시킵니다. 훈련 데이터셋에는 올바른 출력 또는 응답 변수 값과 쌍을 이루는 레이블이 지정된 입력 데이터가 포함됩니다. 이 데이터셋에서 지도 학습 알고리즘은 특징과 출력 데이터 간의 관계를 발견하여 모델을 만든 다음 새로운 데이터셋의 응답 변수 값을 예측합니다.
지도 학습은 다양한 공학 및 과학 분야에서 실제 문제를 해결하는 모델을 개발하는 데 사용할 수 있습니다. 예를 들어, 임상의가 이전 환자에 대한 연령, 체중, 키, 혈압 등의 데이터를 갖고 있다고 가정해 보겠습니다. 임상의는 이전 환자의 심장마비 발생 여부를 파악하고 새로운 환자에게 심장마비가 발생할 위험이 있는지 예측하려 한다고 하겠습니다. 이는 지도 학습을 사용해 기존 데이터를 모델링하여 수행할 수 있습니다.
지도 학습에서의 훈련 및 추론 단계.
통상적인 지도 학습 워크플로에는 데이터 준비, 알고리즘 선택, 모델 훈련, 모델 평가 등의 단계가 포함됩니다. 지도 학습에서는 모델 훈련을 위해 레이블이 지정된 데이터를 활용하므로 훈련 데이터가 현실적인지 여부가 매우 중요합니다. 예를 들어, 잡음이 있는 환경에서 모델이 사용되는 경우 훈련 데이터에도 현실적인 수준의 잡음이 포함되어야 합니다. 검증은 모델이 노출되지 않은 데이터에 잘 일반화되고 과적합을 방지하도록 하는 지도 학습에서 또 다른 중요한 단계입니다.
지도 학습 모델 개선
정확도와 예측 검정력을 향상하기 위한 지도 학습 모델 개선 작업에는 종종 특징 엔지니어링 및 하이퍼파라미터 조정이 수반됩니다. 특징 엔지니어링이란 원시 데이터를 머신러닝 모델의 입력으로 사용할 수 있는 특징으로 변환하는 공정을 말합니다. 하이퍼파라미터 조정에는 최적의 모델을 도출하는 파라미터 세트를 식별하는 작업이 포함됩니다.
특징 엔지니어링 및 하이퍼파라미터 조정을 적용해 지도 학습 모델의 성능을 개선합니다.
지도 학습과 비지도 학습 비교
지도 학습과 비지도 학습은 모두 머신러닝의 유형입니다.
두 가지 유형의 머신러닝: 지도 학습 및 비지도 학습.
지도 학습과 비지도 학습 간의 가장 큰 차이점은 지도 학습에는 머신러닝 모델의 훈련을 위해 레이블이 지정된 훈련 데이터가 필요하다는 점입니다. 반면, 비지도 학습은 사람의 개입 없이 레이블 미지정 데이터를 사용해 데이터에서 숨겨진 관계를 발견합니다. 지도 학습의 결과는 레이블 지정 데이터의 존재 덕분에 비지도 학습의 결과보다 더 정확할 수 있습니다. 그러나 레이블 지정 데이터를 얻기 위해서는 사람의 노력이 필요한 경우가 많으며, 경우에 따라 시간이 많이 소요되고 비용이 많이 들며 비실용적일 수 있습니다.
지도 학습을 적용하기 전에 비지도 학습을 사용하여 입력 데이터에서 패턴을 발견하고 지도 학습을 위한 특징을 식별하는 경우도 있습니다. 특징 식별 외에도, 훈련 세트에서 모든 관측값의 정확한 범주나 응답 변수를 식별해야 합니다. 준지도 학습 역시 머신러닝 기법 중 하나이며, 보다 적은 수의 레이블 지정 데이터로 모델을 훈련시키므로 레이블 지정에 투입되는 노력을 줄일 수 있습니다.
지도 학습의 유형
지도 학습 알고리즘을 통해 생성되는 머신러닝 모델의 주요 유형은 분류 모델과 회귀 모델입니다. 각 작업 유형(분류 또는 회귀)에 대해 서로 다른 알고리즘을 사용해 데이터를 모델링할 수 있습니다.
지도 학습 알고리즘의 유형.
지도 학습을 사용한 분류
지도 학습에서 분류란 데이터를 특정 클래스나 범주로 구분하는 것을 말합니다. 목표는 클래스의 유한 집합의 클래스(또는 레이블)를 관측값에 할당하는 것입니다. 즉, 분류 모델의 응답 변수는 범주형 변수입니다.
통상적인 응용 사례로는 의료 영상, 음성 인식, 신용 평가 등이 있습니다. 그 예로는 이메일이 진짜인지 스팸인지 또는 장비 부품에 결함이 있는지 여부를 판단하는 것 등이 있습니다.
| 로지스틱 회귀는 한 클래스 또는 다른 클래스에 속하는 이진 응답 변수의 확률을 예측할 수 있는 모델에 피팅합니다. | 판별분석은 서로 다른 클래스가 가우스 분포에 따라 데이터를 생성한다고 가정함으로써 특징의 선형 결합을 찾아 데이터를 분류합니다. | kNN(k-최근접이웃)은 데이터셋에서 최근접이웃의 클래스를 기반으로 객체를 분류합니다. kNN 예측에서는 서로 가까운 객체가 유사하다고 가정합니다. | 나이브 베이즈 분류기는 클래스의 한 특징의 존재가 다른 특징과 무관하다고 가정합니다. 이 분류기는 새로운 데이터가 특정 클래스에 속할 확률이 가장 높은 것을 기준으로 분류합니다. |
|
|
|
|
|
지도 학습을 사용한 회귀
지도 학습에 회귀 기법을 사용하면 응답 변수와 입력 변수 간 관계를 이해할 수 있습니다. 이는 온도 또는 장비에 고장이 발생할 때까지 걸린 시간과 같이 값에 범위가 있는 데이터셋이나 응답 변수가 실수인 경우에 유용합니다. 즉, 회귀 모델은 연속 응답 변수를 예측합니다. 통상적인 응용 사례로는 전력 부하 예측, 배터리 잔여 수명 예측, 알고리즘 트레이딩, 질병 발생률, 주가 예측, 음향 신호 처리 등이 있습니다.
| 선형 회귀는 연속 응답 변수를 하나 이상 예측 변수의 일차 함수로 설명하는 데 사용되는 통계 모델링 기법입니다. 선형 회귀 모델은 해석이 간단하고 훈련이 쉽기 때문에 새로운 데이터셋의 가장 먼저 피팅해 보는 모델인 경우가 많습니다. | 비선형 회귀는 실험 데이터의 비선형 관계를 설명할 수 있는 통계 모델링 기법입니다. 비선형 회귀 모델은 비선형 방정식으로 모델을 표현하는 모수적 모델로 일반적으로 가정됩니다. | 비선형 모델의 특수한 클래스인 일반화 선형 모델은 선형 방법을 사용합니다. 이 접근법에는 입력의 선형 결합을 출력의 비선형 함수(연결 함수)에 피팅하는 작업이 수반됩니다. |
|
|
|
지도 학습을 사용한 분류 또는 회귀
여러 지도 학습 알고리즘을 분류 및 회귀 작업 모두에 사용할 수 있습니다.
| 결정 트리를 사용하면 루트(시작)에서부터 리프 노드에 이르는 트리의 의사결정을 따라 데이터에 대한 응답을 예측할 수 있습니다. 트리는 예측 변수의 값과 훈련된 가중치를 비교하는 분기 조건으로 구성됩니다. 분기 수와 가중치 값은 훈련 중에 결정됩니다. | SVM(서포트 벡터 머신)은 한 클래스에 속하는 모든 데이터 점을 다른 클래스에 속하는 모든 데이터 점으로부터 가장 잘 분리하는 초평면을 찾아 데이터를 분류합니다. SVM 회귀에서 알고리즘은 데이터를 분리하는 초평면을 찾는 대신, 오류에 대한 민감도를 최소화하기 위해 가능한 작은 파라미터 값을 사용하여 측정된 데이터에서 매우 작은 편차가 있는 모델을 찾습니다. | 신경망은 인간의 뇌와 유사한 계층 구조의 상호연결된 노드 또는 뉴런을 사용하여 학습하는 적응형 시스템입니다. 신경망은 데이터로부터 학습할 수 있기 때문에 패턴을 인식하고 데이터를 분류하고 미래의 이벤트를 예측하도록 훈련시킬 수 있습니다. 신경망의 동작은 개별 요소가 연결되는 방식 및 이러한 연결의 강도 또는 가중치에 의해 정의됩니다. 이러한 가중치는 훈련 중에 자동으로 조정됩니다. |
|
|
|
머신러닝의 특수한 형태인 딥러닝은 심층 신경망을 활용하여 보다 복잡한 작업과 더 큰 규모의 데이터셋을 처리합니다. CNN(컨벌루션 신경망), RNN(순환 신경망), LSTM(장단기 기억) 신경망과 같은 널리 사용되는 딥러닝 알고리즘은 일반적으로 지도 학습 방식입니다.
올바른 지도 학습 알고리즘 선택
데이터에 사용할 지도 학습 알고리즘을 선택할 때는 연산 및 메모리 요구사항, 예측 정확도, 해석 가능성 등 서로 다른 알고리즘 간의 장단점을 고려해야 합니다. 이 과정에는 시행착오가 있을 수 있으며 AutoML(자동화된 머신러닝)을 적용하면 보다 쉽게 수행할 수 있습니다.
여러 지도 학습 알고리즘의 예측 검정력과 해석 가능성 간 장단점 비교.
지도 학습이 중요한 이유
지도 학습은 머신러닝과 인공 지능의 주요 영역입니다. 엔지니어와 과학자들은 실제 문제를 해결하기 위해 지도 학습을 사용해 AI 모델을 구축하고 있습니다. 예를 들어, 가상 센서 모델링에서 가상 센서 개발에 사용되는 AI 모델은 지도 학습 알고리즘으로 훈련됩니다. 지도 학습에는 다음과 같은 응용 사례가 있습니다.
- 생물정보학 및 의료기기: 지도 학습 기법은 의료 분야에서 의료 영상, 종양 검출, 신약 발견 등에서 널리 사용되고 있습니다. 또한 지도 학습은 부정맥, 울혈성 심부전 및 정상 굴리듬을 구분하기 위한 ECG 데이터 분류와 같은 신호 기반 작업에도 사용할 수 있습니다.
- 에너지 생산: 엔지니어는 회귀에 지도 학습을 사용하여 에너지 가격을 예측하고, 전력 부하를 전망하고, 다양한 재생 에너지 응용 사례에 대한 모델을 만들 수 있습니다.
- 산업 자동화: 지도 학습을 사용하면 이상 감지, 결함 검출, 진단을 위한 예측 모델을 개발할 수 있습니다.
- 정량적 금융 및 리스크 관리: 지도 학습 알고리즘은 신용 평가, 알고리즘 트레이딩, 주가 예측, 채권 분류에 사용됩니다.
실제 지도 학습의 예
배터리 SOC(충전 상태)는 전기 배터리 용량 대비 배터리 충전 수준을 백분율로 측정한 값입니다. 전기차를 비롯한 많은 응용 사례에서는 SOC를 정확하게 추정해야 합니다. 물리 기반 모델링 접근법을 사용하는 리튬-이온 SOC 추정은 동일한 제조업체의 배터리라 하더라도 동작 조건이 다양하고 기기 변동성이 크기 때문에 매우 복잡합니다.
지도 학습을 사용한 SOC 추정 예측 모델을 구축하는 것은 이러한 문제를 해결하는 데 도움이 될 수 있는 데이터 주도 접근법입니다. 이 모델은 전압, 전류, 온도 등 다양한 배터리 측정값과 평균 전압 및 전류 등 파생된 특징을 나타내는 시계열 데이터로부터 차량의 리튬이온 배터리 충전 상태를 예측할 수 있습니다. 이 예제에 대해 자세히 알아보십시오.
실제 SOC와 Statistics and Machine Learning Toolbox의 가우스 과정 회귀 모델을 사용하여 예측된 SOC의 비교. (코드 보기.)
MATLAB을 사용한 지도 학습
MATLAB®을 사용하면 지도 학습을 적용하고 예측 모델을 구축할 수 있습니다. Statistics and Machine Learning Toolbox™ 및 Deep Learning Toolbox™를 사용하여 지도 학습 모델을 훈련하고 검증하며 조정할 수 있습니다. 머신러닝 및 딥러닝 툴과 다른 MATLAB 툴박스를 결합하여 산업 특정 워크플로를 수행할 수 있습니다. 내장 함수 및 대화형 앱을 사용하면 데이터를 처리하고 레이블을 지정하며, 모델을 훈련시키고, 모델 성능을 시각화하고, 하이퍼파라미터를 조정하여 모델 성능을 개선할 수 있습니다.
데이터 준비
MATLAB은 신호, 시각 및 텍스트 데이터를 지원합니다. 명령줄에서 또는 로우코드 앱을 통해 대화형 방식으로 데이터에 액세스하고 탐색할 수 있습니다.
- ground truth 데이터에 레이블을 지정하는 앱을 선택하여 영상 분류기, 객체 검출기, 의미론적 분할 신경망 및 딥러닝 응용 사례와 같은 지도 학습 알고리즘을 검증하거나 훈련시킬 수 있습니다.
- 데이터 정리기 앱과 데이터 전처리 라이브 편집기 작업을 사용하여 데이터를 전처리할 수 있습니다.
MATLAB에서 데이터 정리기 앱을 사용한 데이터 전처리 단계의 적용. (문서 보기.)
특징 엔지니어링과 관련하여 MATLAB은 대부분의 특징 추출 및 특징 선택 방법에 대한 내장 툴을 제공합니다.
로우코드 앱을 사용한 AI 모델링
분류 학습기 및 회귀 학습기 앱을 사용하면 분류와 회귀를 위한 머신러닝 모델의 설계, 조정, 평가 및 최적화에 지도 학습을 적용할 수 있습니다. 이러한 머신러닝 앱으로 할 수 있는 작업은 다음과 같습니다.
- 다양한 머신러닝 알고리즘에 대한 모델을 훈련시킵니다.
- 결과를 시각화하고 모델 성능을 평가합니다.
- 여러 모델의 성능을 비교합니다.
- 훈련된 모델의 코드를 자동으로 생성합니다.
- 훈련된 모델을 작업 공간, Simulink® 및 MATLAB Production Server™로 내보냅니다.
분류 학습기 앱
회귀 학습기 앱
심층 신경망 디자이너 앱을 사용하여 딥러닝 신경망을 대화형 방식으로 설계하고 분석하며 수정할 수 있습니다. 또한 사전 훈련된 신경망을 불러오거나 PyTorch® 및 TensorFlow™에서 신경망을 가져올 수도 있습니다.
MATLAB의 심층 신경망 디자이너 앱을 사용한 심층 신경망 설계. (문서 보기.)
실험 관리자 앱을 사용하면 AI 모델링 이외에도 여러 머신러닝 및 딥러닝 실험을 가져오고 관리하며, 훈련 파라미터를 추적하고, 하이퍼파라미터를 조정하며, 결과를 분석하고, 다양한 실험의 코드를 비교할 수 있습니다.
지도 학습 및 임베디드 AI
MATLAB 및 Simulink로 복잡한 임베디드 시스템의 성능과 기능을 개선하는, 지도 학습을 통해 구축한 AI 모델을 설계하고 시뮬레이션하며 테스트하고 검증하며 배포할 수 있습니다. 전용 Simulink 블록을 사용하여 복잡한 시스템으로의 AI 모델 통합을 시뮬레이션하고 테스트할 수 있습니다. 리소스가 제한된 타겟으로의 배포에 최적화된 코드를 자동으로 생성합니다.
자료
문서, 예제, 비디오 등을 통해 여러분의 지식을 확장할 수 있습니다.
관련 주제
MATLAB 및 Simulink 제품과 흔히 함께 사용되는 비슷한 주제를 살펴볼 수 있습니다.
무료로 사용해 보기
지금 시작하기웹사이트 선택
번역된 콘텐츠를 보고 지역별 이벤트와 혜택을 살펴보려면 웹사이트를 선택하십시오. 현재 계신 지역에 따라 다음 웹사이트를 권장합니다:
또한 다음 목록에서 웹사이트를 선택하실 수도 있습니다.
사이트 성능 최적화 방법
최고의 사이트 성능을 위해 중국 사이트(중국어 또는 영어)를 선택하십시오. 현재 계신 지역에서는 다른 국가의 MathWorks 사이트 방문이 최적화되지 않았습니다.
미주
- América Latina (Español)
- Canada (English)
- United States (English)
유럽
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)