주성분 분석(PCA)
다변량 통계에서 겪는 태생적인 어려움 중 하나는 많은 변수를 갖는 데이터를 시각화하는 문제입니다. 함수 plot
은 두 변수 사이의 관계를 나타내는 그래프를 표시합니다. plot3
명령과 surf
명령은 여러 3차원 보기를 표시합니다. 그러나 변수가 4개 이상 있는 경우 해당 관계를 시각화하는 것은 더욱 어려워집니다.
다행히, 많은 변수를 포함하는 데이터 세트에서는 변수 그룹이 함께 움직이는 경우가 많습니다. 이에 대한 한 가지 이유는 시스템의 전체 동작을 통제하는 같은 구동 원칙을 둘 이상의 변수가 측정하는 경우가 있을 수 있기 때문입니다. 많은 시스템에서 이러한 구동 원칙은 몇 개에 불과합니다. 그러나 계측 방법은 다양하기에 수십 개의 시스템 변수를 측정하는 것이 가능합니다. 이것이 가능해지면 이러한 정보의 중복성을 활용할 수 있습니다. 변수 그룹을 하나의 새로운 변수로 교체하여 문제를 단순화할 수 있습니다.
주성분 분석은 이러한 단순화를 실현할 수 있는 정량적으로 엄격한 방법입니다. 이 방법은 주성분이라고 하는 새로운 변수의 집합을 생성합니다. 각 주성분은 원래 변수의 선형 결합입니다. 모든 주성분은 서로 직교 상태이므로 중복된 정보가 없습니다. 주성분은 전체적으로 데이터 공간에 대한 직교 기저를 형성합니다.
데이터의 여러 열에 대해 직교 기저를 생성하는 방법은 무수히 많습니다. 주성분 기저는 과연 어떤 점이 특별할까요?
첫 번째 주성분은 공간의 단일 축입니다. 해당 축에 각 관측값을 투영하면 결과로 생성되는 값이 새로운 변수를 형성합니다. 이 변수의 분산은 첫 번째 축으로 선택 가능한 모든 대안 중 최댓값입니다.
두 번째 주성분은 공간의 다른 축이며, 첫 번째 주성분에 대해 수직입니다. 이 축에 관측값을 투영하면 또 다른 새 변수가 생성됩니다. 이 변수의 분산은 두 번째 축으로 선택 가능한 모든 대안 중 최댓값입니다.
전체 주성분 집합의 크기는 원래 변수 집합의 크기와 같습니다. 그러나 처음 몇 개 주성분의 분산 합이 원래 데이터의 총 분산의 80%를 초과하는 경우가 일반적입니다. 이러한 몇 개의 새 변수에 대한 플롯을 검토하면서 연구자는 원래 데이터의 생성을 가능케한 원동력에 대해 더욱 깊게 이해할 수 있습니다.
함수 pca
를 사용하여 주성분을 구할 수 있습니다. pca
를 사용하려면 분석하려는 실제 측정 데이터가 있어야 합니다. 그러나, 실제 데이터가 없어도 데이터에 대한 표본 공분산 또는 상관 행렬이 있다면 함수 pcacov
를 사용하여 주성분 분석을 수행할 수 있습니다. 이 함수에 대한 입력값과 출력값에 대한 설명은 pcacov
함수 도움말 페이지를 참조하십시오.
데이터 스트림에서 들어오는 데이터를 처리해야 할 때 incrementalPCA
함수를 사용해 점진적 PCA 모델 객체를 생성하여 점진적 PCA를 수행할 수 있습니다. 모델 객체를 생성할 때 디폴트 모델을 지정하거나 초기 주성분 계수 및 분산을 지정할 수 있습니다. fit
함수는 모델을 들어오는 데이터 청크에 피팅하고, 출력 모델에 업데이트된 PCA 속성을 저장합니다. 모델이 워밍업되고 나면 fit
함수는 선택적으로 주성분 점수를 반환할 수 있습니다. transform
함수는 입력된 데이터 청크를 받아 점진적 PCA 모델을 사용하여 변환합니다.
참고 항목
pca
| pcacov
| pcares
| ppca
| incrementalPCA