비지도 학습

비지도 학습이란?

사람이 데이터와 레이블을 제공하는 지도 학습과 달리, 비지도 학습은 인간의 개입 없이 데이터셋에서 추론을 도출하는 데 사용되는 머신러닝 알고리즘입니다.

가장 널리 사용되는 비지도 학습 방법은 군집화 기법을 이용하여 데이터를 탐색하고 데이터의 숨겨진 패턴이나 집단을 찾는 군집화입니다.

MATLAB을 사용하면 다음과 같이 널리 사용되는 다양한 군집화 알고리즘을 적용할 수 있습니다.

  • 계층적 군집화: 군집 트리를 생성하여 다층적인 군집 계층구조를 구축합니다.
  • k-평균 k-중앙개체 군집화: 거리에 기반해 데이터를 k개의 서로 다른 군집으로 분할합니다.
  • 가우스 혼합 모델: 다변량 정규 밀도 구성요소의 혼합물로서 군집을 모델링합니다.
  • DBSCAN(밀도 기반 공간 군집화): 고밀도 구역에서 서로 가까운 점들을 그룹화하고, 저밀도 영역에서 이상값을 계속 추적합니다.
  • 자기 조직화 맵: 데이터의 위상과 분포를 학습하는 신경망을 이용합니다.
  • 스펙트럼 군집화: 무작위 비볼록 형상을 다룰 수 있는 그래프 기반 군집화입니다.

비지도 학습을 적용하는 그 밖의 방법에는 준지도 학습과 비지도 특징 순위 지정 등이 있습니다. 준지도 학습은 지도 학습에서 레이블 지정된 데이터에 대한 필요를 줄여줍니다. 전체 데이터셋에 군집화를 적용하여 레이블 지정 데이터와 레이블 미지정 데이터 간에 유사성을 수립하고, 이전에 레이블이 지정되지 않은 유사한 군집 멤버에 레이블을 전파할 수 있습니다.

비지도 특징 순위 지정은 주어진 목표 예측 변수나 응답 변수 없이 특징에 점수를 할당합니다. MATLAB®Statistics and Machine Learning Toolbox™는 라플라스 점수를 사용하여 비지도 순위 지정을 지원합니다.

요점

  • 비지도 학습은 일반적으로 지도 학습 이전에 적용되어, 탐색적 데이터 분석에서 특징을 식별하고 집단을 기초로 클래스를 수립합니다.
  • k-평균 군집화와 계층적 군집화는 여전히 널리 사용됩니다. 일부 군집화 방법만이 무작위 비볼록 형상을 다룰 수 있는데 MATLAB에서 지원하는 방법은 DBSCAN, 계층적 군집화, 스펙트럼 군집화 등이 있습니다.
  • 비지도 학습(군집화)으로 데이터를 압축할 수도 있습니다.
  • 비지도 특징 순위 지정을 이용하면 대규모 데이터셋에 거리 기반 군집화를 더 효율적으로 적용할 수 있습니다.

참조: Statistics and Machine Learning Toolbox, Machine Learning with MATLAB, Image Processing Toolbox