이 페이지의 최신 내용은 아직 번역되지 않았습니다. 최신 내용은 영문으로 볼 수 있습니다.

그룹화 변수를 사용하여 데이터 분할하기

그룹화 변수를 사용하여 데이터 변수를 그룹으로 분할할 수 있습니다. 일반적으로, 그룹화 변수를 선택하는 것은 분할-적용-재조합 워크플로(Split-Apply-Combine Workflow)의 첫 번째 단계입니다. 데이터를 그룹으로 분할하고, 함수를 각 그룹에 적용하고, 결과를 조합할 수 있습니다. 그룹화 변수에서 누락된 값을 나타낼 수도 있습니다. 그러면 데이터 변수의 대응값이 무시됩니다.

그룹화 변수

그룹화 변수는 관측값, 즉 다른 변수의 데이터 값을 그룹화하거나 범주화하는 데 사용되는 변수입니다. 그룹화 변수는 다음 데이터형 중 하나일 수 있습니다.

  • 숫자형 벡터, 논리형 벡터, categorical형 벡터, datetime형 벡터, duration형 벡터

  • 문자형 벡터로 구성된 셀형 배열

  • 이 목록에 있는 데이터형을 테이블 변수로 가지는 테이블

데이터 변수는 관측값이 포함된 변수입니다. 그룹화 변수는 데이터 변수의 각 값에 해당하는 값을 보유해야 합니다. 그룹화 변수의 대응값이 동일한 경우 데이터 값은 같은 그룹에 속합니다.

다음 표에는 그룹화 변수를 사용하여 데이터 변수를 분할할 때 생성할 수 있는 그룹과 데이터 변수, 그룹화 변수에 대한 예가 나와 있습니다.

데이터 변수

그룹화 변수

데이터 그룹

[5 10 15 20 25 30]

[0 0 0 0 1 1]

[5 10 15 20] [25 30]

[10 20 30 40 50 60]

[1 3 3 1 2 1]

[10 40 60] [50] [20 30]

[64 72 67 69 64 68]

{'F','M','F','M','F','F'}

[64 67 64 68] [72 69]

문자형 벡터로 구성된 셀형 배열이나 categorical형 배열을 그룹화 변수로 사용할 경우 데이터 그룹에 의미 있는 이름을 지정할 수 있습니다. categorical형 배열을 통해 그룹화 변수를 효율적이며 융통성 있게 사용할 수 있습니다.

그룹 정의

일반적으로 그룹화 변수에는 존재하는 고유한 값의 수만큼의 그룹이 있습니다. 또한, categorical형 배열은 데이터에서 표현되지 않는 범주도 포함할 수 있습니다. 그룹과 그룹의 순서는 그룹화 변수의 데이터형에 따라 달라집니다.

  • 숫자형 벡터, 논리형 벡터, datetime형 벡터, duration형 벡터, 문자형 벡터로 구성된 셀형 배열의 경우 그룹이 오름차순으로 정렬된 고유한 값에 대응합니다.

  • categorical형 배열의 경우, 그룹은 고유한 값에 대응하는데 이 고유한 값은 배열에서 관측되고 categories 함수에서 반환한 순서로 정렬됩니다.

findgroups 함수는 여러 그룹화 변수를 받을 수 있습니다(예: G = findgroups(A1,A2)). 테이블에 여러 그룹화 변수를 포함시킬 수도 있습니다(예: T = table(A1,A2); G = findgroups(T)). findgroups 함수는 그룹화 변수의 대응하는 요소 중, 서로 다른 값의 조합으로 그룹을 정의합니다. findgroups는 첫 번째 그룹화 변수의 순서에 따른 후 두 번째 그룹화 변수의 순서를 따르는 등의 순서로 정렬됩니다. 예를 들어, A1 = {'a','a','b','b'}이고 A2 = [0 1 0 0]이면 그룹화 변수 중 고유한 값은 'a' 0, 'a' 1, 'b' 0이며, 이 값은 세 그룹을 정의합니다.

분할-적용-재조합 워크플로(Split-Apply-Combine Workflow)

그룹화 변수를 선택하고 데이터 변수를 그룹으로 분할한 후 함수를 그룹에 적용하고 결과를 조합할 수 있습니다. 이러한 워크플로를 분할-적용-재조합 워크플로라고 합니다. 이 워크플로에서 findgroups 함수와 splitapply 함수를 함께 사용하여 데이터 그룹을 분석할 수 있습니다. 다음 도식에서는 그룹화 변수 Gender와 데이터 변수 Height를 사용하여 성별 평균 키를 계산하는 간단한 예를 보여줍니다.

findgroups 함수는 그룹화 변수의 고유한 값에 따라 그룹을 정의하는 그룹 번호의 벡터를 반환합니다. splitapply는 그룹 번호를 사용하여 함수를 적용하기 전에 효율적으로 데이터를 그룹으로 분할합니다.

누락된 그룹 값

그룹화 변수에 누락된 값이 있을 수 있습니다. 다음 표는 각 데이터형에 대한 누락값 표시자를 보여줍니다. 그룹화 변수에 누락된 값이 있으면 findgroupsNaN을 그룹 번호로 할당하고, splitapply는 데이터 변수의 대응값을 무시합니다.

그룹화 변수 데이터형

누락값 표시자

숫자형

NaN

논리형

(누락될 수 없음)

categorical형

<undefined>

datetime

NaT

duration

NaN

문자형 벡터로 구성된 셀형 배열

''

문자열

<missing>

참고 항목

| | |

관련 항목