비지도 학습이란?

비지도 학습은 레이블 미지정 데이터에서 추론을 이끌어내는 머신러닝 기법의 한 유형입니다. 비지도 학습은 인간의 지도나 결과에 대한 사전 지식 없이 데이터 내에서 숨겨진 패턴과 관계를 식별하는 것을 목표로 합니다.

비지도 학습의 작동 원리

비지도 학습 알고리즘은 결과에 대한 사전 지식 없이도 데이터 내에서 숨겨진 패턴, 구조 및 그룹을 찾아냅니다. 이러한 알고리즘은 레이블이 지정되지 않은 데이터, 즉 미리 정의된 레이블이 없는 데이터를 활용합니다.

일반적인 비지도 학습 프로세스에는 데이터 준비, 올바른 비지도 학습 알고리즘 적용, 최종적으로 결과 해석 및 평가가 포함됩니다. 이 접근법은 유사한 데이터 점을 함께 그룹화하는 것이 목표인 군집화와 특징(차원)의 수를 줄여 데이터를 단순화하는 차원 축소와 같은 작업에 특히 유용합니다. 비지도 학습은 데이터의 내재된 구조를 분석함으로써 데이터셋을 더욱 잘 이해할 수 있게 해줍니다.

또한 비지도 학습은 지도 학습 전에 적용하여 탐색적 데이터 분석에서 특징을 파악하고 그룹을 기반으로 클래스를 설정할 수 있습니다. 이는 원시 데이터를 지도 머신러닝에 적합한 특징으로 변환하는 프로세스인 특징 엔지니어링의 일부입니다.

다양한 색의 모양들(레이블 미지정 데이터)을 비지도 학습 알고리즘에 입력하면 세 개의 동질적인 그룹(클래스)이 출력됩니다. — 비지도 학습을 사용하여 레이블 미지정 데이터를 그룹으로 구성.

비지도 학습 방법의 유형

군집화

군집화는 가장 일반적인 비지도 학습 방법으로, 데이터셋의 자연적인 그룹이나 내재된 구조를 이해하는 데 도움이 됩니다. 군집화는 탐색적 데이터 분석, 패턴 인식, 이상 감지, 영상 분할 등에 사용됩니다. k-평균 또는 계층적 군집화와 같은 군집화 알고리즘은 동일한 그룹(또는 군집)의 데이터 점이 다른 그룹의 데이터 점보다 서로 더 유사하도록 데이터 점을 그룹화합니다.

예를 들어, 휴대폰 제조업체에서 이동통신 기지국을 세울 위치를 최적화하려고 한다면 머신러닝을 사용하여 기지국을 이용하는 사람들의 군집 수를 추정할 수 있습니다. 휴대폰은 한 번에 하나의 기지국과만 통신하므로 이 팀은 군집화 알고리즘을 사용하여 고객 그룹(즉, 군집)의 신호 수신을 최적화할 수 있는 최상의 기지국 배치를 설계할 수 있습니다.

군집화를 사용하여 데이터에서 숨겨진 패턴 찾기.

군집화는 다음과 같이 두 가지 주요 범주로 나뉩니다.

널리 사용되는 k-평균 방법처럼, 어떤 데이터 점이 오직 하나의 군집에만 속하는 하드 군집화 또는 배타적 군집화.
가우스 혼합 모델에서처럼, 어떤 데이터 점이 둘 이상의 군집에 속할 수 있는 소프트 군집화 또는 중복 군집화.

널리 사용되는 군집화 알고리즘은 다음과 같습니다.

계층적 군집화는 군집 트리를 생성하여, 다층적인 군집 계층구조를 구축합니다.
k-평균은 군집 중심까지의 거리에 따라 데이터를 k개의 서로 다른 군집으로 분할합니다.
가우스 혼합 모델은 다변량 정규 밀도 컴포넌트의 혼합물로서 군집을 구성합니다.
DBSCAN(잡음이 있는 응용 사례의 밀도 기반 공간 군집화)은 고밀도 구역에서 서로 가까운 점들을 그룹화하고, 저밀도 영역에서 이상값을 계속 추적합니다. 이 알고리즘은 무작위 비볼록 형상을 다룰 수 있습니다.
자기 조직화 맵은 데이터의 위상과 분포를 학습하는 신경망을 이용합니다.
스펙트럼 군집화는 입력 데이터를 그래프 기반 표현으로 변환하는데, 그래프 기반 표현에서는 원래 특징 공간에서보다 군집들이 더욱 잘 분리되어 있습니다. 군집의 개수는 그래프의 고유값을 조사하여 추정할 수 있습니다.
은닉 마르코프 모델은 생물정보학에서 유전자나 단백질 같은 염기서열의 패턴을 발견하는 데 사용할 수 있습니다.
FCM(퍼지 c-평균)은 데이터셋의 모든 데이터 점이 어느 정도 모든 군집에 속하도록 데이터를 N개의 군집으로 그룹화합니다.

군집화는 영상 분할, 이상 감지, 패턴 인식 등 다양한 응용 사례에 사용됩니다.

세 종의 붓꽃에 대한 꽃잎 너비와 길이 측정값을 보여주는 2차원 플롯과 GMM 군집화를 사용한 세 개의 결과 군집을 보여주는 플롯. — 왼쪽: 붓꽃 세 종의 여러 표본에서 얻은 꽃잎 측정값을 보여주는 MATLAB 산점도 플롯. 오른쪽: GMM(가우스 혼합 모델) 군집화 기법을 사용하여 세 개의 군집으로 분할된 꽃잎 측정값.

차원 축소

다변량 데이터에는 종종 많은 변수나 특징이 포함됩니다. 이는 런타임과 메모리 요구사항에 영향을 미칠 수 있습니다. 차원 축소 기법은 원래 데이터의 필요한 정보를 보존하면서 특징(차원)의 수를 줄입니다. 비지도 학습과 함께 차원 축소를 사용하면 계산 부하를 줄이고 머신러닝 알고리즘의 속도와 효율성을 높이는 데 도움이 될 수 있습니다.

변수가 많은 데이터에 내재된 또 다른 어려움은 이를 시각화하는 문제입니다. 차원 축소 기법은 중요한 정보를 잃지 않고 데이터를 단순화함으로써 시각화 및 분석 작업을 더욱 수월하게 해줍니다.

다섯 가지 활동(앉기, 서기, 걷기, 달리기, 춤추기)을 하는 동안 스마트폰 가속도계 센서를 사용하여 수집한 60개 차원의 인간 활동 데이터를 예로 들어보겠습니다. 이 데이터는 높은 차원으로 인해 시각화하고 분석하기가 어렵습니다. 차원 축소를 사용하면 중요한 정보를 잃지 않고 이러한 차원을 두 개 또는 세 개로 줄일 수 있습니다.

차원 축소를 위해 널리 사용되는 몇 가지 비지도 학습 방법은 다음과 같습니다.

PCA(주성분 분석)는 더 적은 수의 변수로 최대 분산을 포착하는 직교 성분 집합으로 데이터를 변환합니다. 새로운 변수를 주성분이라고 합니다. 각 주성분은 원래 변수의 선형 결합입니다. 첫 번째 주성분은 공간의 단일 축입니다. 각 관측값을 해당 축에 사영하면 결과 값이 새로운 변수를 형성하고 이 변수의 분산은 첫 번째 축의 모든 가능한 선택 중에서 최댓값이 됩니다. 두 번째 주성분은 첫 번째 주성분과 수직인, 공간의 또 다른 축입니다. 이 축에 관측값을 사영하면 또 다른 새로운 변수가 생성됩니다. 이 변수의 분산은 두 번째 축의 모든 가능한 모든 선택 중에서 최댓값입니다. 주성분의 전체 집합은 원래 변수 집합만큼 크지만, 처음 몇 개의 성분이 원래 데이터의 전체 분산 중 80% 이상을 차지하는 경우가 많습니다.
t-SNE(t-분포 확률적 이웃 임베딩)는 고차원 데이터를 시각화하는 데 적합합니다. 이는 점 간의 유사성을 지키는 방식으로 고차원 데이터 점을 저차원에 임베딩합니다. 일반적으로 저차원 점을 시각화하면 원래의 고차원 데이터에서 자연스러운 군집을 볼 수 있습니다.
인자 분석은 변수 간에 관측된 상관관계를 설명하는 기본 인자를 식별하여 변수 간의 상호 의존성을 추정하기 위해 다변량 데이터에 모델을 피팅하는 방법입니다. 이 비지도 학습 기법에서 측정된 변수는 더 적은 수의 미관측(잠재) 인자에 따라 달라집니다. 각 인자는 여러 변수에 공통적으로 영향을 미칠 수 있으므로 공통 인자라고 합니다. 각 변수는 공통 인자의 선형 결합에 따라 달라지는 것으로 가정하며 계수를 적재값이라고 합니다. 각 측정 변수에는 독립적인 무작위 변동성으로 인한 성분도 포함되는데, 하나의 변수에 특정하므로 이를 특정 분산이라고 합니다.
오토인코더는 입력 데이터를 복제하도록 훈련된 신경망입니다. 오토인코더는 영상, 시계열, 텍스트 등 다양한 데이터형에 사용할 수 있습니다. 이상 감지, 텍스트 생성, 영상 생성, 영상 잡음 제거, 디지털 통신 등 다양한 응용 분야에서 유용합니다. 오토인코더는 차원 축소에 자주 사용됩니다. 오토인코더는 인코더와 디코더라는 2개의 더 작은 신경망으로 구성됩니다. 훈련 중에 인코더는 입력 데이터로부터 잠재 표현이라고 하는 일련의 특징을 학습합니다. 이와 동시에 디코더는 그러한 특징을 토대로 데이터를 재구성하도록 훈련됩니다.

오토인코더를 사용한 영상 기반 이상 감지.

연관 규칙

연관 규칙 학습은 대규모 데이터베이스에서 변수 간의 흥미로운 관계를 식별합니다. 예를 들어, 거래 데이터에 대해 연관 규칙을 사용하면 사용자가 함께 구매할 가능성이 가장 높은 품목을 식별할 수 있습니다. 연관 규칙 마이닝에 사용되는 알고리즘은 다음과 같습니다.

Apriori 알고리즘은 너비 우선 검색을 수행하여 데이터에서 빈발 항목 집합을 식별한 다음, 이러한 항목 집합에서 연관 규칙을 도출합니다.
ECLAT(등가 클래스 군집화 및 상향식 격자 순회) 알고리즘은 깊이 우선 검색 전략을 사용하여 빈발 항목 집합을 찾습니다.

장바구니 분석에서 가장 일반적으로 활용되는 연관 규칙은 예측 정비에도 사용될 수 있습니다. 예를 들어, 다양한 센서의 데이터를 기반으로, 알고리즘을 사용하여 고장 패턴을 식별하고 컴포넌트 고장을 예측하는 규칙을 만들 수 있습니다.

비지도 학습을 적용하는 다른 방법으로는 준지도 학습과 비지도 특징 순위 지정이 있습니다. 준지도 학습은 지도 학습에서 레이블 지정 데이터의 필요성을 줄여줍니다. 전체 데이터셋에 적용된 군집화는 레이블 지정 데이터와 레이블 미지정 데이터 간의 유사성을 확립하며, 레이블은 이전에 레이블이 지정되지 않은 유사한 군집 멤버에 전파됩니다. 비지도 특징 랭크 지정은 주어진 예측 타겟이나 응답 변수가 없는 특징에 점수를 할당합니다.

더 알아보기

머신러닝에서의 비지도 학습 (4:15)

군집화 방법을 사용한 비지도 학습

비지도 학습을 사용한 이상 감지

비지도 학습이 중요한 이유

비지도 학습은 데이터를 탐색하고 이해하는 데 중요한 역할을 하는 머신러닝과 인공 지능의 주요 영역입니다. 레이블 지정 데이터를 활용하여 모델을 훈련시키는 지도 학습과 달리, 비지도 학습은 레이블 미지정 데이터로 작동하므로 데이터 레이블 지정에 비용이 많이 소요되고 시간이 오래 걸리거나 비실용적인 경우가 많은 실제 상황에서 특히 유용합니다.

비지도 학습은 데이터 내의 숨겨진 패턴, 구조 및 관계를 찾아냄으로써 기업과 연구원들이 이전에는 접근할 수 없었던 의미 있는 인사이트를 얻을 수 있게 해줍니다. 비지도 학습의 일반적인 작업에는 패턴 인식, 탐색적 데이터 분석, 분할, 이상 감지, 특징 축소 등이 있습니다.

지도 학습과 비지도 학습의 차이점

지도 학습은 분류 또는 회귀를 수행하기 위해 레이블 지정 데이터셋에서 모델을 훈련하는 것을 포함합니다. 즉, 각 훈련 예제는 출력 레이블과 쌍을 이룹니다. 모델은 알려진 입력 데이터 집합(특징이라고 함) 및 알려진 응답 변수와 함께 알려진 데이터셋(훈련 데이터셋이라고 함)을 사용한 훈련을 통해 예측을 수행합니다. 지도 학습의 예로는 방의 크기나 수와 같은 특징을 기반으로 집값을 예측하는 것이 있습니다. 널리 사용되는 머신러닝 모델로는 선형 회귀, 로지스틱 회귀, KNN(k-최근접이웃), 서포트 벡터 머신이 있습니다. 딥러닝 모델 또한 레이블이 지정된 대규모 데이터셋을 사용하여 훈련되며, 종종 수작업으로 특징 추출을 수행할 필요 없이 데이터에서 직접 특징을 학습할 수 있습니다.

반면, 비지도 학습은 레이블 미지정 데이터를 처리합니다. 비지도 학습 알고리즘은 사전 지식 없이 데이터의 기본 구조를 학습하려 시도합니다. 비지도 학습의 주요 목표는 입력 데이터에서 숨겨진 패턴이나 내재된 구조를 찾는 것입니다. 비지도 학습의 예로는 어떤 과일인지 알지 못하는 상태에서 색, 크기, 맛의 유사성에 따라 과일을 그룹화하는 것이 있습니다. 일반적인 비지도 학습 알고리즘에는 k-평균, 계층적 군집화와 같은 군집화 방법과 PCA(주성분 분석)와 같은 차원 축소 기법이 포함됩니다.

레이블 지정 데이터가 없기 때문에 비지도 학습 결과는 일반적으로 지도 학습 결과보다 정확도가 떨어집니다. 그러나, 레이블 지정 데이터를 획득하려면 사람의 개입이 필요하며 시간이 오래 걸리고 생물학적 데이터와 같은 일부 경우에는 불가능할 수도 있습니다. Ground truth 레이블 지정에는 특히 흔히 접하는 객체의 영상이 아닌 복잡한 신호에 레이블을 지정할 때 영역 지식이 필요할 수 있습니다.

지도 학습과 비지도 학습은 머신러닝의 한 유형입니다.

비지도 학습의 예

미리 정의된 레이블 없이 숨겨진 패턴과 관계를 식별하는 비지도 학습 기능은 다음을 포함한 다양한 응용 분야에서 꼭 필요한 툴입니다.

탐색적 데이터 분석: 비지도 학습 기법은 데이터를 탐색하여 숨겨진 내재 구조를 찾아내고 그로부터 인사이트를 도출하는 데 널리 사용됩니다. 예를 들어, 인자 분석을 사용하면 동일한 업종에 속한 기업들이 매주 비슷한 주가 변동을 경험하는지 분석할 수 있습니다.
이상 감지: 격리 포레스트, GMM(가우스 혼합 모델)과 같은 비지도 학습 방법을 사용하여 이상을 감지할 수 있습니다.
의료 영상: 비지도 학습 기법의 하나인 군집화는 영상 분할에 매우 유용합니다. 군집화 알고리즘을 의료 영상에 적용하여 픽셀 밀도, 색 또는 기타 특징에 따라 영상을 분할할 수 있습니다. 의사는 이 정보를 사용하여 건강한 조직과 종양을 구분하거나 뇌를 백질, 회백질, 뇌척수액으로 분할하는 등 관심 영역을 식별할 수 있습니다.
유전체학 및 생물정보학: 생물정보학에서는 유전자 군집화와 염기서열 분석을 활용합니다. 예를 들어, 군집화를 사용하여 유전자 발현 프로파일 간의 관계를 식별할 수 있습니다.
추천 시스템: 협업 필터링에서는 사용자-아이템 상호작용 행렬을 분해하기 위해 SVD(특이값 분해)와 같은 비지도 학습 기법이 사용됩니다. 이 접근법은 인기 있는 동영상 스트리밍 플랫폼에서 개별 사용자에게 콘텐츠를 추천하는 데 사용됩니다.
NLP(자연어 처리): 자연어 처리에서 비지도 학습 기법은 토픽 모델링, 문서 군집화, AI 언어 모델 구축과 같은 작업에 사용됩니다.

비지도 학습은 다양한 영역에서 다양하게 응용되고 있습니다. 비지도 학습은 숨겨진 패턴과 관계를 밝혀냄으로써 엔지니어와 연구원들이 정보에 근거한 의사결정을 내릴 수 있게 합니다. 데이터가 기하급수적으로 증가함에 따라 비지도 학습의 중요성과 영향력은 계속해서 확대될 것입니다.

더 알아보기

퍼지 c-평균 군집화를 사용한 뇌 종양 분할

PCA를 사용하여 미국 도시의 삶의 질 분석하기

오토인코더를 사용한 영상 분류

MATLAB을 사용한 비지도 학습

MATLAB^®을 사용하면 다음과 같이 데이터 준비부터 모델 평가 및 배포에 이르는 비지도 학습 파이프라인을 만들 수 있습니다.

Statistics and Machine Learning Toolbox™를 사용하면 군집화 및 차원 축소와 같은 비지도 학습 방법을 데이터에 적용하고 모델 성능을 평가할 수 있습니다.
Deep Learning Toolbox™를 사용하면 오토인코더 신경망으로 비지도 학습을 수행할 수 있습니다.
MATLAB Coder™를 사용하면 다양한 하드웨어 플랫폼에 비지도 학습 방법을 배포하기 위한 C/C++ 코드를 생성할 수 있습니다.

MATLAB을 사용하여 데이터에 액세스하여 탐색하고 전처리하며 비지도 학습 알고리즘을 적용하고 결과를 평가하여 인사이트를 도출하며 이러한 인사이트를 공유할 수 있습니다. — MATLAB의 확장된 비지도 학습 워크플로.

데이터 준비

프로그래밍 방식으로 데이터를 정리하거나 로우코드 데이터 정리기 앱 및 텍스트 데이터 전처리 라이브 편집기 작업을 사용하여 대화형 데이터 준비 및 자동 코드 생성을 수행할 수 있습니다.

군집화

MATLAB은 k-평균, 계층적 군집화, DBSCAN, GMM 등 널리 사용되는 모든 군집화 알고리즘을 지원합니다. Fuzzy Logic Toolbox™를 사용하면 데이터셋에서 퍼지 c-평균 군집화를 수행할 수도 있습니다.

또한 데이터 군집화 라이브 편집기 작업을 사용하여 대화형 방식으로 k-평균 및 계층적 군집화를 수행할 수 있습니다. 군집화 알고리즘, 군집 수, 거리 측정법을 지정할 수 있습니다. 이 작업은 군집 인덱스를 계산하고 군집화된 데이터의 시각화를 표시합니다.

라이브 편집기의 데이터 군집화 작업을 위한 사용자 인터페이스와 그 결과로 생성된 2차원 산점도 플롯(PCA). — 데이터 군집화 라이브 편집기 작업을 사용한 k-평균 군집화. (MATLAB 문서 보기.)

차원 축소

MATLAB은 PCA, t-SNE, 인자 분석 등 널리 사용되는 모든 차원 축소 기법을 지원합니다. 내장 함수를 사용하여 이러한 기법을 데이터에 적용할 수 있습니다. PCA의 경우, 차원 축소 라이브 편집기 작업을 사용하여 대화형 방식으로 단계를 수행할 수도 있습니다.

MATLAB을 사용하면 라플라시안 점수를 사용하여 비지도 학습 특징의 순위를 지정할 수도 있습니다.

결과 평가

군집을 시각화하여 산점도, 덴드로그램, 실루엣 플롯을 사용해 군집화 결과를 평가할 수 있습니다. evalclusters 함수를 사용하여 최적의 데이터 군집 수를 평가해 군집화 결과를 평가할 수도 있습니다. 데이터가 특정 군집 수에 얼마나 잘 피팅되는지 확인하려면 간격이나 실루엣과 같은 다양한 평가 기준을 사용하여 인덱스 값을 계산할 수 있습니다.

차원을 축소하려면 산점도 플롯, 스크리 플롯, 행렬도를 사용하여 결과를 검사할 수 있습니다. 차원 축소 라이브 편집기 작업을 사용하여 95% 또는 99%와 같은 고정된 데이터 비율의 분산을 설명하는 데 필요한 구성요소의 수를 결정할 수 있습니다.

활동별로 색으로 구분된 그룹: 달리기, 걷기, 춤추기, 앉기, 서기. — t-SNE(t-분포 확률적 이웃 임베딩)를 사용하여 원래 60개의 차원을 두 개 차원으로 축소한 고차원 데이터의 산점도 플롯. (MATLAB 코드 보기.)

더 알아보기

MATLAB을 사용한 손쉬운 k-평균 군집화 (1:50)

k-평균 군집화를 사용한 유전자 발현 프로파일 발견

MATLAB의 비지도 학습을 사용한 주가 분석

자료

문서, 예제, 비디오 등을 통해 여러분의 지식을 확장할 수 있습니다.

비지도 학습

비지도 학습이란?

비지도 학습의 작동 원리

비지도 학습 방법의 유형

군집화

차원 축소

연관 규칙

더 알아보기

비지도 학습이 중요한 이유

지도 학습과 비지도 학습의 차이점

비지도 학습의 예

더 알아보기

MATLAB을 사용한 비지도 학습

데이터 준비

군집화

차원 축소

결과 평가

더 알아보기

자료

문서

더 살펴보기

관련 주제