거리 측정법은 두 관측값 간의 거리를 정의하는 함수입니다. pdist
는 다음과 같은 다양한 거리 측정법을 지원합니다. 유클리드 거리, 표준화된 유클리드 거리, 마할라노비스 거리, 도시 블록 거리, 민코프스키 거리, 체비쇼프 거리, 코사인 거리, 상관관계 거리, 해밍 거리, 자카드 거리, 스피어만 거리.
m×n 데이터 행렬 X
가 주어진 경우, 이는 m(1×n)개 행 벡터 x1, x2, ..., xm으로 처리되며, 벡터 xs와 벡터 xt 간의 다양한 거리는 다음과 같이 정의됩니다.
유클리드 거리(Euclidean Distance)
유클리드 거리는 p = 2인 민코프스키 거리의 특수한 사례입니다.
표준화된 유클리드 거리
여기서 V는 j번째 대각선 요소가 (S(j))2인 n×n 대각 행렬입니다(여기서 S는 각 차원의 스케일링 인자로 구성된 벡터임).
마할라노비스 거리
여기서 C는 공분산 행렬입니다.
도시 블록 거리
도시 블록 거리는 p = 1인 민코프스키 거리의 특수한 사례입니다.
민코프스키 거리
p = 1인 특수한 사례에서 민코프스키 거리는 도시 블록 거리와 동일합니다. p = 2인 특수한 사례에서 민코프스키 거리는 유클리드 거리와 동일합니다. p = ∞인 특수한 사례에서 민코프스키 거리는 체비쇼프 거리와 동일합니다.
체비쇼프 거리
체비쇼프 거리는 p = ∞인 민코프스키 거리의 특수한 사례입니다.
코사인 거리
상관관계 거리
여기서는 다음을 조건으로 합니다.
이고 입니다.
해밍 거리(Hamming Distance)
자카드 거리(Jaccard Distance)
스피어만 거리(Spearman Distance)
여기서는 다음을 조건으로 합니다.
rsj는 x1j, x2j, ...xmj에 대해 얻은 xsj의 순위로, tiedrank
에 의해 계산됩니다.
rs 및 rt는 xs와 xt로 구성된 좌표별 순위 벡터입니다. 즉, rs = (rs1, rs2, ... rsn)입니다.
.
.