MATLAB을 사용한 머신러닝

챕터 1

머신러닝 개요

더 많은 데이터, 더 많은 질문, 더 좋은 해답

머신러닝 알고리즘을 통해 데이터에서 자연적 패턴을 찾아 데이터에 대한 이해를 넓히고 더 나은 결정과 예측을 할 수 있습니다. 이러한 알고리즘은 의료 진단, 주식 트레이딩, 에너지 부하 예측 등의 분야에서 중요한 결정을 내리는 데 매일 사용되고 있습니다. 미디어 사이트들은 머신러닝을 사용해 수백만 개의 옵션을 면밀히 조사하여 사용자에게 노래나 영화를 추천합니다. 소매업자는 머신러닝을 사용하여 고객의 구매 행동을 파악합니다.

자동차 및 제조 부문의 예측 정비

계산 금융 부문의 신용 평가 및 알고리즘 트레이딩

영상 처리 및 컴퓨터 비전 부문의 얼굴 인식 및 객체 검출

계산 생물학 부문의 종양 검출, 신약 발견 및 DNA 염기서열 분석

에너지 생산 부문의 가격 및 부하 예측

자연어 처리

실제 응용 사례:

머신러닝의 작동 방식

머신러닝은 두 가지 형태의 기법을 사용합니다. 하나는 지도 학습으로, 미래의 출력값을 예측하기 위해 알려진 입력 데이터와 출력 데이터를 사용해 모델을 훈련합니다. 다른 하나는 비지도 학습이며, 입력 데이터에서 숨겨진 패턴이나 내재된 구조를 찾습니다.

지도 학습

분류

분류 기법은 예를 들어 이메일이 진짜인지 스팸인지 또는 종양이 악성 종양인지 양성 종양인지와 같은 이산 응답 변수를 예측합니다. 분류 모델은 입력 데이터를 범주로 분류합니다. 통상적인 응용 사례로는 의료 영상, 음성 인식, 신용 평가 등이 있습니다.

회귀

회귀 기법은 온도 변화 또는 전력 수요의 변동과 같은 연속 응답 변수를 예측합니다. 통상적인 응용 사례로는 전력 부하 예측 및 알고리즘 트레이딩 등이 있습니다.

비지도 학습

비지도 학습은 데이터에서 숨겨진 패턴이나 내재된 구조를 찾습니다. 이 기법은 레이블 지정 응답 변수가 없는 입력 데이터로 구성된 데이터셋에서 추론을 도출하는 데 사용됩니다.

군집화는 가장 일반적인 비지도 학습 기법입니다. 이 기법은 데이터에서 숨겨진 패턴이나 그룹을 찾는 탐색적 데이터 분석에 사용됩니다.

군집화의 응용 사례로는 유전자 염기서열 분석, 시장 조사, 객체 인식 등이 있습니다.

어떤 알고리즘을 사용할지 어떻게 결정할 수 있을까요?

수십 개의 지도 머신러닝 알고리즘과 비지도 머신러닝 알고리즘이 있고 각각의 알고리즘은 서로 다른 학습 접근법을 사용하기 때문에 적합한 알고리즘을 선택하는 것이 막막하게 느껴질 수 있습니다. 하나의 최선의 방법 또는 모든 문제에 맞는 방법이란 없습니다. 올바른 알고리즘을 찾는 데는 어느 정도 시행착오가 필요합니다. 경험이 많은 데이터 과학자라고 해도 시도해보기 전에는 어느 알고리즘이 맞다고 이야기할 수 없습니다. 하지만 알고리즘 선택은 사용하는 데이터의 크기 및 유형, 데이터에서 얻고자 하는 이해, 이러한 이해를 사용하는 방식에 따라서도 달라집니다.

서포트 벡터 머신
판별분석
나이브 베이즈
최근접이웃

선형 회귀, GLM
SVR, GPR
앙상블 방법
결정 트리
신경망

K-평균, K-중앙개체
퍼지 C-평균
계층적 군집화
가우스 혼합
신경망
은닉 마르코프 모델

머신러닝은 언제 사용해야 합니까?

대량의 데이터와 많은 변수가 있지만 기존의 공식이나 수식이 없는 복잡한 작업 또는 문제가 있을 때 머신러닝 사용을 고려해 볼 수 있습니다. 예를 들어, 아래와 같은 상황에서는 머신러닝이 좋은 선택이 될 수 있습니다.

손으로 쓴 규칙 및 수식이 너무 복잡한 경우 - 예: 얼굴 인식 및 음성 인식

데이터의 특성이 지속적으로 변하며, 프로그램도 이에 따라 조정되어야 하는 경우 - 예: 자동 트레이딩, 에너지 수요 예측, 쇼핑 트렌드 예측

작업의 규칙이 지속적으로 변화하는 경우 - 예: 거래 기록에서 부정행위 탐지

다음
챕터 2: 시작하기