군집 시각화와 군집 평가
데이터에 대한 군집을 플로팅하고 최적의 군집 개수 평가
군집 분석은 데이터 점 간의 유사성을 기준으로 데이터를 그룹으로 재구성합니다. 어떤 데이터는 자연적인 분할을 포함하고 있어 적절한 군집 개수를 알아내기 쉬울 수 있습니다. 그 외 경우에는 데이터가 자연적인 분할을 포함하지 않거나 자연적인 분할을 파악하기 어렵게 되어 있을 수 있습니다. 이런 경우에는 사용자가 데이터를 그룹화할 최적의 군집 개수를 결정합니다.
데이터가 특정 개수의 군집에 얼마나 잘 맞는지 확인하려면 간격 또는 실루엣과 같은 다양한 평가 기준을 사용하여 인덱스 값을 계산해야 합니다. 덴드로그램 플롯을 생성하여 계층적 이진 군집 트리를 표시함으로써 군집을 시각화해 봅니다. 인접 리프 간 유사성의 합을 극대화하도록 리프 순서를 최적화합니다. 각 그룹별로 여러 측정값을 갖는 그룹화된 데이터의 경우에는 다변량분산분석(MANOVA)을 사용하여 계산된 그룹 평균을 기준으로 덴드로그램 플롯을 생성합니다.
라이브 편집기 작업
데이터 군집화 | Cluster data using k-means or hierarchical clustering in the Live Editor (R2021b 이후) |
함수
객체
CalinskiHarabaszEvaluation | Calinski-Harabasz criterion clustering evaluation object |
DaviesBouldinEvaluation | Davies-Bouldin criterion clustering evaluation object |
GapEvaluation | Gap criterion clustering evaluation object |
SilhouetteEvaluation | Silhouette criterion clustering evaluation object |
도움말 항목
- 군집 평가
이 예제에서는
evalclusters
를 사용하여 군집을 식별하는 방법을 보여줍니다.