챕터 3

비지도 학습 적용


비지도 학습을 고려해야 하는 경우

비지도 학습은 데이터를 탐색하고 싶지만, 아직 구체적인 목표가 없거나 데이터에 어떤 정보가 포함되어 있는지 확실하지 않은 경우에 유용합니다. 또한 데이터의 차원을 줄일 수 있는 좋은 방법이기도 합니다.

대부분의 비지도 학습 기법은 챕터 1에서 살펴본 것처럼 군집 분석의 한 형태입니다.

군집 분석에서 데이터는 유사도 또는 공유 특성을 기준으로 여러 그룹으로 분할됩니다. 동일 군집에 속한 객체는 매우 유사하고 다른 군집에 속한 객체는 매우 구별되도록 군집이 형성됩니다.

군집화 알고리즘은 크게 두 그룹으로 구분할 수 있습니다.

  • 어떤 데이터 점이 오직 하나의 군집에만 속하는 하드 군집화.
  • 어떤 데이터 요소가 둘 이상의 군집에 속할 수 있는 소프트 군집화. 가능한 데이터 그룹을 이미 알고 있는 경우 하드 군집화 또는 소프트 군집화 기법을 사용할 수 있습니다.
가우스 기법을 사용한 군집 모델의 그림

데이터를 두 군집으로 분리하는 데 사용된 가우스 혼합 모델.

데이터의 그룹화 방법을 아직 모르는 경우:

  • 자기 조직화 특징 맵 또는 계층적 군집화를 사용하여 데이터 내 가능한 구조를 찾습니다.
  • 군집 평가를 사용하여 주어진 군집화 알고리즘에 '최선의' 그룹 수를 찾습니다.

일반적인 하드 군집화 알고리즘

일반적인 소프트 군집화 알고리즘