군집 시각화와 군집 평가

데이터에 대한 군집을 플로팅하고 최적의 군집 개수 평가

군집 분석은 데이터 점 간의 유사성을 기준으로 데이터를 그룹으로 재구성합니다. 어떤 데이터는 자연적인 분할을 포함하고 있어 적절한 군집 개수를 알아내기 쉬울 수 있습니다. 그 외 경우에는 데이터가 자연적인 분할을 포함하지 않거나 자연적인 분할을 파악하기 어렵게 되어 있을 수 있습니다. 이런 경우에는 사용자가 데이터를 그룹화할 최적의 군집 개수를 결정합니다.

데이터가 특정 개수의 군집에 얼마나 잘 맞는지 확인하려면 간격 또는 실루엣과 같은 다양한 평가 기준을 사용하여 인덱스 값을 계산해야 합니다. 덴드로그램 플롯을 생성하여 계층적 이진 군집 트리를 표시함으로써 군집을 시각화해 봅니다. 인접 리프 간 유사성의 합을 극대화하도록 리프 순서를 최적화합니다. 각 그룹별로 여러 측정값을 갖는 그룹화된 데이터의 경우에는 다변량분산분석(MANOVA)을 사용하여 계산된 그룹 평균을 기준으로 덴드로그램 플롯을 생성합니다.

라이브 편집기 작업

데이터 군집화

Cluster data using k-means or hierarchical clustering in the Live Editor (R2021b 이후)

함수

모두 확장

군집 시각화

`dendrogram`	덴드로그램 플롯
`optimalleaforder`	Optimal leaf ordering for hierarchical clustering
`manovacluster`	Dendrogram of group mean clusters following MANOVA
`silhouette`	Silhouette plot

군집 평가

`evalclusters`	Evaluate clustering solutions
`addK`	Evaluate additional numbers of clusters
`compact`	Compact clustering evaluation object
`increaseB`	Increase reference data sets
`plot`	Plot clustering evaluation object criterion values

객체

`CalinskiHarabaszEvaluation`	Calinski-Harabasz criterion clustering evaluation object
`DaviesBouldinEvaluation`	Davies-Bouldin criterion clustering evaluation object
`GapEvaluation`	Gap criterion clustering evaluation object
`SilhouetteEvaluation`	Silhouette criterion clustering evaluation object

도움말 항목

최적의 군집 개수 평가하기
evalclusters 함수를 사용하여 데이터 세트에서 최적의 군집 개수를 식별합니다.