앤드류스 플롯을 사용하여 다차원 데이터를 시각화합니다. 먼저 데이터를 그룹화합니다. 그런 다음 표준화와 사분위수를 사용하여 그룹 간의 차이를 확인합니다.
100명 환자에 대한 의료 정보를 포함하는 patients 데이터 세트를 불러옵니다. 1과 0 대신 설명적 범주 이름인 Smoker와 Nonsmoker를 지정합니다. 그런 다음 Diastolic 변수, Systolic 변수, Weight 변수, Age, Smoker 변수를 사용하여 테이블을 만듭니다.
patientData의 변수로부터 앤드류스 플롯을 만듭니다. 마지막 변수를 사용하여 흡연 상태에 따라 데이터를 그룹화합니다.
기본적으로 플롯은 표준화되지 않은 데이터를 사용합니다. 이 플롯에서는 Smoker 그룹과 Nonsmoker 그룹 간에 큰 차이가 보이지 않습니다.
플로팅하기 전에 숫자형 patientData 변수를 표준화합니다.
이번에 생성된 앤드류스 플롯에서는 Smoker 그룹과 Nonsmoker 그룹 간에 변동이 더 크게 나타납니다. 이 플롯은 patientData의 매 환자마다 100개 곡선을 표시했기 때문에 다소 복잡합니다.
각 관측값마다 곡선을 하나씩 표시하는 대신에 각 그룹의 사분위수 곡선을 표시합니다. 사분위수는 25번째 백분위수, 중앙값, 75번째 백분위수로 구성됩니다.
사분위수 곡선은 Smoker 그룹과 Nonsmoker 그룹 간의 차이를 보여줍니다. 예를 들어 약 0.25에서 두 그룹은 겹치지 않는 사분위수 값을 가지고 있습니다.
앤드류스 플롯에 표시되는 각 함수는 변수들의 선형 결합이며 해당 계수들은 시간이 지남에 따라 변한다는 점을 기억하십시오. (앤드류스(Andrews) 플롯 항목을 참조하십시오.) 시간 0.25에서의 변수에 대한 계수를 계산합니다. 이와 같은 변수들의 선형 결합은 그룹을 구별하는 데 도움이 될 수 있습니다.
variables = 1×4 cell
{'Diastolic'} {'Systolic'} {'Weight'} {'Age'}
coefficients = 1×4
0.7071 1.0000 0.0000 0.0000
시간 0.25에서, Diastolic 변수와 Systolic 변수는 비슷한 크기의 양의 계수를 가지고 있고 Weight 변수와 Age 변수는 0 계수를 가지고 있습니다. 위의 플롯은 데이터의 표준화 후에 Smoker 그룹의 사분위수 곡선은 시간 0.25에서 양의 값을 가지고 있고 Nonsmoker 그룹의 사분위수 곡선은 시간 0.25에서 음의 값을 가지고 있음을 보여줍니다.
이와 같은 플롯과 변수 계수는 Smoker 그룹의 환자들이 Diastolic 값과 Systolic 값이 더 높은 경향이 있음을 나타내며, 이는 patientData의 Smoker 그룹과 Nonsmoker 그룹을 구별하는 한 가지 방법을 제공합니다.