챕터 2
머신러닝 시작하기
순탄치 않은 길
머신러닝에서는 처음부터 끝까지 순조롭게 진행되는 경우가 거의 없으므로 다양한 아이디어와 접근법을 끊임없이 반복하고 시도하게 됩니다. 이 섹션에서는 체계적인 머신러닝 워크플로에 대해 설명하며, 그 과정에서 나타나는 몇 가지 주요 결정 사항을 조명합니다.
실제 데이터셋은 정리되지 않고 불완전하며 형식이 다양할 수 있습니다. 단순한 숫자형 데이터일 수 있습니다. 하지만 때로는 센서 신호, 텍스트, 카메라의 스트리밍 영상 등의 여러 데이터형이 결합된 경우도 있습니다.
예를 들어, 객체 검출 알고리즘을 훈련하기 위한 특징을 선택하기 위해서는 영상 처리에 대한 전문 지식이 필요합니다. 데이터의 형태에 따라 전처리에 대한 접근법이 달라져야 합니다.
적합한 모델을 선택하는 것은 균형을 조정하는 작업입니다. 유연성이 높은 모델은 잡음이 될 수 있는 사소한 변동까지 모델링하여 데이터를 과적합하는 경향이 있습니다. 반면, 단순한 모델은 너무 많은 것을 가정할 수 있습니다. 모델 속도, 정확도, 복잡도 사이에는 항상 상충관계가 존재합니다.
모든 머신러닝 워크플로는 다음 세 가지 질문으로 시작됩니다.
- 어떤 형태의 데이터로 작업하는가?
- 이를 통해 어떤 것에 대한 이해를 넓히고자 하는가?
- 이렇게 얻은 통찰력은 어떤 방식으로 어디에 적용될 것인가?
이러한 질문에 대한 답변을 통해 지도 학습 또는 비지도 학습을 사용할지 결정할 수 있습니다.
예로 온도나 주가와 같은 연속 변수의 미래 값을 예측하거나 웹캠 비디오에서 자동차 제조업체를 식별하는 등 분류를 위해 모델을 훈련시켜야 한다면 지도 학습을 선택할 수 있습니다.
데이터를 탐색하고 데이터를 여러 군집으로 나누는 등 좋은 내부 표현을 찾도록 모델을 훈련해야 한다면 비지도 학습을 선택할 수 있습니다.
한 눈에 보는 워크플로
전체 PDF를 다운로드하여 건전성 모니터링 앱을 예시로 하여 단계별로 자세히 살펴볼 수 있습니다. 전체 워크플로는 MATLAB®에서 수행됩니다.
- 데이터에 액세스 및 불러오기
- 데이터 전처리
- 전처리된 데이터를 사용한 특징 도출
- 3단계에서 도출된 특징을 사용한 모델 훈련
- 반복을 통한 최적의 모델 찾기
- 가장 잘 훈련된 모델을 프로덕션 시스템에 통합