그룹화 변수

그룹화 변수란?

그룹화 변수는 관측값을 그룹화하거나 분류하는 데 사용되는 유틸리티 변수입니다. 그룹화 변수는 데이터를 그룹별로 요약하거나 시각화할 때 유용합니다. 그룹화 변수는 다음 데이터형 중 하나일 수 있습니다.

숫자형 벡터
논리형 벡터
문자형 배열
string형 배열
문자형 벡터로 구성된 셀형 배열
categorical형 벡터

그룹화 변수는 그룹화하려는 테이블, dataset형 배열 또는 숫자형 배열과 동일한 개수의 관측값(행)을 가져야 합니다. 동일한 그룹화 변수 값을 갖는 관측값은 동일한 그룹에 속합니다.

예를 들어, 다음 변수는 동일한 그룹을 구성합니다. 각 그룹화 변수는 5개의 관측값을 2개의 그룹으로 나눕니다. 첫 번째 그룹은 첫 번째 관측값과 네 번째 관측값을 포함합니다. 나머지 3개의 관측값은 두 번째 그룹에 속합니다.

데이터형	그룹화 변수
숫자형 벡터	`[1 2 2 1 2]`
논리형 벡터	`[0 1 1 0 1]`
string형 배열	`["Male","Female","Female","Male","Female"]`
문자형 벡터로 구성된 셀형 배열	`{'Male','Female','Female','Male','Female'}`
categorical형 벡터	`Male Female Female Male Female`

그룹화 변수를 레이블과 함께 사용하여 각 그룹에 의미 있는 이름을 지정하십시오. categorical형 벡터를 선택하면 그룹화 변수를 효율적이고 유연하게 사용할 수 있습니다.

그룹 정의

일반적으로 그룹화 변수에 있는 고유한 값의 개수만큼 그룹이 존재합니다. 그러나 categorical형 벡터는 데이터에는 나타나지 않는 레벨을 가질 수 있습니다. 그룹과 그룹 순서는 그룹화 변수의 데이터형에 따라 결정됩니다. G가 그룹화 변수라고 가정하겠습니다.

G가 숫자형 벡터 또는 논리형 벡터이면 그룹은 고유한 값의 정렬된 순서에 따라 G의 고유 값에 대응됩니다.
G가 문자형 배열, string형 배열 또는 문자형 벡터로 구성된 셀형 배열이면 그룹은 처음으로 나타나는 순서에 따라 G의 고유 값에 대응됩니다.
G가 categorical형 벡터이면 그룹은 categories가 반환하는 순서에 따라 G의 고유한 범주 레벨에 대응됩니다.

grpstats와 같은 일부 함수는 그룹화 변수로 구성된 셀형 배열로 지정된 여러 개의 그룹화 변수를 받습니다(예: {G1,G2,G3}). 이 경우 그룹은 그룹화 변수에 있는 값들의 고유한 조합에 따라 정의됩니다. 순서는 먼저 첫 번째 그룹화 변수의 순서에 의해 정해지고, 그다음에 두 번째 그룹화 변수의 순서에 의해 정해지는 식입니다.

그룹화 변수를 사용한 분석

다음 표에는 그룹화 변수를 사용하여 일반적으로 수행하는 작업이 나와 있습니다.

그룹화 작업	그룹화 변수를 받는 함수
여러 그룹에 있는 데이터에 대해 상자 플롯을 나란히 그립니다.	`boxplot`
그룹별로 색이 지정된 마커를 사용하여 산점도 플롯을 그립니다.	`gscatter`
그룹별로 색이 지정된 마커를 사용하여 산점도 플롯 행렬을 그립니다.	`gplotmatrix`
그룹별로 요약 통계량을 계산합니다.	`grpstats`
그룹 평균 간 차이를 검정합니다.	`anovan`
그룹화 변수로부터 인덱스 벡터를 만듭니다.	`grp2idx`

누락된 그룹 값

유효한 표시자를 제공할 경우 그룹화 변수는 누락값을 가질 수 있습니다.

그룹화 변수 데이터형	누락값 표시자
숫자형 벡터	`NaN`
논리형 벡터	(누락될 수 없음)
문자형 배열	공백 행
string형 배열	`<missing>` 또는 `""`
문자형 벡터로 구성된 셀형 배열	`''`
categorical형 벡터	`<undefined>`

참고 항목

categorical