splitapply

데이터를 그룹으로 분할하고 함수 적용

구문

Y = splitapply(func,X,G)

Y = splitapply(func,X1,...,XN,G)

Y = splitapply(func,T,G)

[Y1,...,YM] = splitapply(___)

설명

데이터를 그룹으로 분할하고 이 그룹에 함수를 적용하려면 findgroups 함수와 splitapply 함수를 함께 사용하십시오. 데이터 그룹 계산에 대한 자세한 내용은 데이터 그룹에 대한 계산 항목을 참조하십시오.

Y = splitapply(func,X,G)는 X를 G로 지정된 그룹으로 분할하고 각 그룹에 함수 func를 적용합니다. splitapply는 X를 분할한 그룹에 func를 적용하고 그 출력값을 결합해 배열 Y로 반환합니다. 입력 인수 G는 X의 대응하는 요소가 속하는 그룹을 지정하는 양의 정수로 구성된 벡터입니다.

출력값 Y와 그룹 번호 G의 순서는 같습니다.

G의 요소가 NaN인 경우 splitapply는 X를 그룹으로 분할할 때 X에서 대응하는 값을 생략합니다.

G를 만들려면 먼저 findgroups 함수를 사용하십시오. 그런 다음 splitapply를 사용합니다.

예제

Y = splitapply(func,X1,...,XN,G)는 X1,...,XN을 그룹으로 분할하고 func 함수를 적용합니다. splitapply 함수는 X1,...,XN에서 대응하는 요소를 func에 대한 N개의 입력 인수로 하여 그룹당 한 번씩 func를 호출합니다.

예제

Y = splitapply(func,T,G)는 테이블 T의 변수를 그룹으로 분할하고 func를 적용한 다음 Y를 배열로 반환합니다. splitapply 함수는 테이블 변수의 데이터형과 크기에 따라 T의 변수를 벡터, 행렬 또는 셀형 배열로 취급합니다. T에 N개 변수가 있는 경우 func은 N개 입력 인수를 허용합니다.

예제

[Y1,...,YM] = splitapply(___)는 변수를 그룹으로 분할하고 각 그룹에 func를 적용합니다. func는 여러 개의 출력 인수를 반환합니다. Y1,...,YM은 입력 데이터 변수에서 분할된 그룹에 적용한 func에서 얻은 결과를 결합합니다. func는 다른 클래스에 속하는 출력 인수를 반환할 수 있지만, func가 호출될 때마다 각 출력의 클래스는 같아야 합니다. 이 구문은 위에 열거된 구문 중 하나의 입력 인수에 사용할 수 있습니다.

func에서 생성된 출력 인수 개수가 X1,...,XN으로 지정된 입력 인수 개수와 같을 필요는 없습니다.

예제

모두 축소

그룹 번호를 사용하여 데이터 분할하기

라이브 스크립트 열기

그룹 번호를 사용하여 환자의 체중 측정값을 흡연자와 비흡연자의 체중 그룹으로 나눕니다. 그런 다음 각 환자 그룹의 평균 체중을 계산합니다.

샘플 파일 patients.mat에서 환자 데이터를 불러옵니다.

load patients
whos Smoker Weight

  Name          Size            Bytes  Class      Attributes

  Smoker      100x1               100  logical              
  Weight      100x1               800  double

findgroups를 사용하여 그룹을 지정합니다. G의 각 요소는 환자가 속한 그룹을 지정하는 그룹 번호입니다. 그룹 1은 비흡연자를 포함하고 그룹 2는 흡연자를 포함합니다.

G = findgroups(Smoker)

환자의 체중을 표시합니다.

Weight

Weight = 100×1

   176
   163
   131
   133
   119
   142
   142
   180
   183
   132
   128
   137
   174
   202
   129
      ⋮

G를 사용하여 Weight 배열을 두 개의 체중 그룹으로 분할합니다. mean 함수를 적용합니다. 비흡연자의 평균 체중은 흡연자의 평균 체중보다 약간 적습니다.

meanWeights = splitapply(@mean,Weight,G)

meanWeights = 2×1

  149.9091
  161.9412

두 데이터 변수를 분할하고 함수 적용하기

라이브 스크립트 열기

환자 그룹에 대한 혈압 기록의 차이 분산값을 계산하고 결과를 표시합니다. 혈압 기록은 두 개의 데이터 변수에 포함됩니다. 차이를 계산하려면 두 개의 입력 인수를 받는 함수를 사용하십시오.

데이터 파일 patients.mat에서 환자 100명에 대한 혈압 측정값, 흡연 여부 데이터를 불러옵니다.

load patients
whos Systolic Diastolic Smoker

  Name             Size            Bytes  Class      Attributes

  Diastolic      100x1               800  double               
  Smoker         100x1               100  logical              
  Systolic       100x1               800  double

func를 흡연자와 비흡연자의 수축기 혈압 기록과 확장기 혈압 기록 간 차이 분산을 계산하는 함수로 정의합니다. func에는 입력 인수 2개가 필요합니다.

func = @(x,y) var(x-y)

func = function_handle with value:
    @(x,y)var(x-y)

findgroups와 splitapply를 사용하여 환자 데이터를 그룹으로 분할하고 차이의 분산을 계산합니다. 또한 findgroups는 smokers로 그룹 식별자를 반환합니다. splitapply 함수는 그룹 당 한 번, func를 Systolic과 Diastolic을 두 개의 입력 인수로 하여 호출합니다.

[G,smokers] = findgroups(Smoker);
varBP = splitapply(func,Systolic,Diastolic,G)

varBP = 2×1

   44.4459
   48.6783

각 그룹에 있는 환자 수와 함께 차이의 분산이 포함되는 테이블을 만듭니다.

numPatients = splitapply(@numel,Smoker,G);
T = table(smokers,numPatients,varBP)

T=2×3 table
    smokers    numPatients    varBP 
    _______    ___________    ______

     false         66         44.446
     true          34         48.678

그룹에 대한 비 스칼라 출력 반환하기

라이브 스크립트 열기

환자 그룹에 대한 체중의 최솟값, 중앙값, 최댓값을 계산하고 이러한 결과를 각 그룹에 대한 배열로 반환합니다. splitapply는 사용자가 각 그룹의 출력값을 다른 그룹의 출력값과 구분할 수 있도록 출력 인수를 결합합니다.

최솟값, 중앙값, 최댓값을 행 벡터로 반환하는 함수를 정의합니다.

mystats = @(x)[min(x) median(x) max(x)]

mystats = function_handle with value:
    @(x)[min(x),median(x),max(x)]

샘플 파일 patients.mat에서 환자의 체중, 병원 위치, 그리고 흡연 여부를 불러옵니다.

load patients
whos Weight Location Smoker

  Name            Size            Bytes  Class      Attributes

  Location      100x1             15008  cell                 
  Smoker        100x1               100  logical              
  Weight        100x1               800  double

findgroups와 splitapply를 사용하여 환자의 체중을 여러 그룹으로 분할하고 각 그룹에 대한 통계량을 계산합니다.

G = findgroups(Location,Smoker);
Y = splitapply(mystats,Weight,G)

Y = 6×3

  111.0000  137.0000  194.0000
  120.0000  170.5000  189.0000
  118.0000  134.0000  189.0000
  115.0000  170.0000  191.0000
  117.0000  140.0000  189.0000
  126.0000  178.0000  202.0000

이 예제에서는 데이터 변수와 그룹화 변수가 열 벡터이므로 비 스칼라 출력값을 행 벡터로 반환할 수 있습니다. Y의 각 행에는 다른 환자 그룹에 대한 통계량이 포함됩니다.

테이블 데이터 변수를 분할하고 함수 적용하기

라이브 스크립트 열기

환자 데이터 테이블에서 평균 체질량지수(BMI)를 계산합니다. 환자를 병원 위치와 흡연 여부(흡연자 또는 비흡연자)로 그룹화합니다.

샘플 파일 patients.mat에서 환자 데이터와 그룹화 변수를 테이블에 불러옵니다. (병원 위치를 string형 배열로 변환합니다.)

load patients
DT = table(Height,Weight);
Location = string(Location);
GT = table(Location,Smoker);

그룹이나 환자의 체중과 키에서 평균 BMI를 계산하는 함수를 정의합니다.

meanBMIFcn = @(h,w)mean((w ./ (h.^2)) * 703)

meanBMIFcn = function_handle with value:
    @(h,w)mean((w./(h.^2))*703)

각 그룹에 대한 평균 BMI가 포함되는 테이블을 만듭니다.

[G,results] = findgroups(GT);
meanBMI = splitapply(meanBMIFcn,DT,G);
results.meanBMI = meanBMI

results=6×3 table
             Location              Smoker    meanBMI
    ___________________________    ______    _______

    "County General Hospital"      false     23.774 
    "County General Hospital"      true      24.865 
    "St. Mary's Medical Center"    false     22.968 
    "St. Mary's Medical Center"    true      24.905 
    "VA Hospital"                  false     23.946 
    "VA Hospital"                  true      24.227

그룹에 대한 여러 출력값 반환하기

라이브 스크립트 열기

환자 그룹에 대한 최소 체중, 평균 체중, 최대 체중을 계산하고 결과를 테이블에 반환합니다.

환자 데이터를 테이블에 불러옵니다.

load patients
T = table(Smoker,Weight)

T=100×2 table
    Smoker    Weight
    ______    ______

    true       176  
    false      163  
    false      131  
    false      133  
    false      119  
    false      142  
    true       142  
    false      180  
    false      183  
    false      132  
    false      128  
    false      137  
    false      174  
    true       202  
    false      129  
    true       181  
      ⋮

환자 체중을 흡연 여부로 그룹화합니다. 연결된 지원 함수 multiStats는 입력 배열에서 최솟값, 평균값, 최댓값을 3개의 출력으로 반환합니다. 흡연자와 비흡연자에 multiStats를 적용합니다. 각 그룹에 대한 multiStats에서 얻은 결과가 포함되는 테이블을 만듭니다.

[G,smoker] = findgroups(T.Smoker);
[minWeight,meanWeight,maxWeight] = splitapply(@multiStats,T.Weight,G);
result = table(smoker,minWeight,meanWeight,maxWeight)

result=2×4 table
    smoker    minWeight    meanWeight    maxWeight
    ______    _________    __________    _________

    false        111         149.91         194   
    true         115         161.94         202

function [lo,avg,hi] = multiStats(x)
    lo = min(x);
    avg = mean(x);
    hi = max(x);
end

입력 인수

모두 축소

`func` — 데이터 그룹에 적용하는 함수
함수 핸들

데이터 그룹에 적용하는 함수로, 함수 핸들로 지정됩니다.

func이 비 스칼라 출력 인수를 반환하는 경우, splitapply가 func에 대한 연속 호출에서 얻은 출력 인수를 결합할 수 있도록 인수의 방향이 지정되어야 합니다 . 예를 들어, 입력 데이터 변수가 열 벡터인 경우, func은 스칼라나 행 벡터를 출력 인수로 반환해야 합니다.

예: Y = splitapply(@sum,X,G)는 X에 있는 데이터 그룹의 합계를 반환합니다.

`X` — 데이터 변수
벡터 | 행렬 | 셀형 배열

데이터 변수로, 벡터, 행렬 또는 셀형 배열로 지정됩니다. X의 요소는 G의 대응하는 요소에서 지정하는 그룹에 속합니다.

X가 행렬인 경우 splitapply는 각 행이나 열을 개별 데이터 변수로 취급합니다. G의 방향은 splitapply가 X의 행을 데이터 변수로 취급하는지, 아니면 X의 열을 데이터 변수로 취급하는지를 결정합니다.

`G` — 그룹 번호
양의 정수로 구성된 벡터

그룹 번호로, 양의 정수로 구성된 벡터로 지정됩니다. 그룹 번호로 지정된 N개 그룹의 경우 1과 N 사이의 모든 정수가 G에 적어도 한 번은 나타나야 합니다.

G의 요소가 NaN인 경우 splitapply는 X를 그룹으로 분할할 때 X에서 대응하는 값을 생략합니다. 대응하는 값을 포함하려면 대신 groupsummary 함수를 사용해 보십시오.

X가 벡터나 셀형 배열인 경우 G는 X와 길이가 같아야 합니다.
X가 행렬이고 G가 행 벡터인 경우 G의 길이는 X의 열 개수와 같아야 합니다.
X가 행렬이고 G가 열 벡터인 경우 G의 길이는 X의 행 개수와 같아야 합니다.
입력 인수가 테이블 T인 경우 G는 열 벡터여야 합니다. G의 길이는 T의 행 개수와 같아야 합니다.

`T` — 데이터 변수
테이블

데이터 변수로, 테이블로 지정됩니다. splitapply는 각 테이블 변수를 별도의 데이터 변수로 취급합니다.

출력 인수

모두 축소

`Y` — 출력 배열
배열

출력 배열. 출력 배열의 각 요소는 입력 배열 X의 요소 그룹에 func를 적용한 결과입니다. 출력값 Y와 그룹 번호 G의 순서는 같습니다.

세부 정보

모두 축소

데이터 그룹에 대한 계산

데이터 분석에서는 일반적으로 데이터 그룹에 대한 계산을 수행합니다. 이러한 계산의 경우 하나 이상의 데이터 변수를 데이터 그룹으로 분할하고, 각 그룹에 대해 계산을 수행하고, 결과를 하나 이상의 출력 변수로 조합합니다. 하나 이상의 그룹화 변수를 사용하여 그룹을 지정할 수 있습니다. 그룹화 변수의 고유 값은 데이터 변수의 대응값이 속하는 그룹을 정의합니다.

예를 들어, 다음 도식은 6×1 숫자형 벡터를 두 개의 데이터 그룹으로 분할하고 각 그룹의 평균을 계산한 다음 출력값을 2×1 숫자형 벡터로 조합하는 그룹화된 간단한 계산을 보여줍니다. 6×1 그룹화 변수에는 두 개의 고유한 값 AB와 XYZ가 있습니다.

Calculation that splits a data variable based on a grouping variable, performs calculations on individual groups of data by applying the same function, and then concatenates the outputs of those function calls

숫자, 텍스트, 날짜/시간, 범주 또는 Bin이 포함된 그룹화 변수를 지정할 수 있습니다.

확장 기능

모두 확장

tall형 배열
메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.

splitapply 함수는 tall형 배열을 지원하지만 다음과 같은 사용법 관련 참고 및 제한 사항이 있습니다.

지정된 함수는 persistent 변수와 같은 상태, 또는 rand와 같은 난수 함수에 종속되어서는 안 됩니다.

자세한 내용은 tall형 배열 항목을 참조하십시오.

스레드 기반 환경
MATLAB®의 `backgroundPool`을 사용해 백그라운드에서 코드를 실행하거나 Parallel Computing Toolbox™의 `ThreadPool`을 사용해 코드 실행 속도를 높일 수 있습니다.

splitapply 함수는 스레드 기반 환경을 완전히 지원합니다. 자세한 내용은 스레드 기반 환경에서 MATLAB 함수 실행하기 항목을 참조하십시오.

버전 내역

R2015b에 개발됨

참고 항목

splitapply

구문

설명

예제

그룹 번호를 사용하여 데이터 분할하기

두 데이터 변수를 분할하고 함수 적용하기

그룹에 대한 비 스칼라 출력 반환하기

테이블 데이터 변수를 분할하고 함수 적용하기

그룹에 대한 여러 출력값 반환하기

입력 인수

func — 데이터 그룹에 적용하는 함수 함수 핸들

X — 데이터 변수 벡터 | 행렬 | 셀형 배열

G — 그룹 번호 양의 정수로 구성된 벡터

T — 데이터 변수 테이블

출력 인수

Y — 출력 배열 배열

세부 정보

데이터 그룹에 대한 계산

확장 기능

tall형 배열 메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.

스레드 기반 환경 MATLAB®의 backgroundPool을 사용해 백그라운드에서 코드를 실행하거나 Parallel Computing Toolbox™의 ThreadPool을 사용해 코드 실행 속도를 높일 수 있습니다.

버전 내역

참고 항목

도움말 항목

`func` — 데이터 그룹에 적용하는 함수
함수 핸들

`X` — 데이터 변수
벡터 | 행렬 | 셀형 배열

`G` — 그룹 번호
양의 정수로 구성된 벡터

`T` — 데이터 변수
테이블

`Y` — 출력 배열
배열

tall형 배열
메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.

스레드 기반 환경
MATLAB®의 `backgroundPool`을 사용해 백그라운드에서 코드를 실행하거나 Parallel Computing Toolbox™의 `ThreadPool`을 사용해 코드 실행 속도를 높일 수 있습니다.