groupBy

그룹화된 항목으로 구성된 RDD 반환

구문

result = groupBy(obj,func,numPartitions)

설명

result = groupBy(obj,func,numPartitions)는 func로 지정된 사용자 지정 기준에 따라 obj의 요소를 그룹화합니다. numPartitions는 결과로 생성되는 RDD에 생성할 분할 개수를 지정합니다.

입력 인수

모두 확장

`obj` — 입력 RDD
`RDD` 객체

입력 RDD로, RDD 객체로 지정됩니다

`func` — 그룹화 기준 함수
함수 핸들

그룹화를 수행하는 함수로, 함수 핸들로 지정됩니다.

데이터형: function_handle

`numPartitions` — 생성할 분할 개수
스칼라 값

생성할 분할 개수로, 스칼라 값으로 지정됩니다.

데이터형: double

출력 인수

모두 확장

`result` — 그룹화된 요소를 포함하는 RDD
`RDD` 객체

입력 RDD의 그룹화된 요소를 포함하는 파이프라인 RDD로, RDD 객체로 반환됩니다.

예제

모두 확장

그룹화된 항목으로 구성된 RDD

사용자 지정 기준에 따라 RDD 요소를 그룹화합니다.

%% Connect to Spark
sparkProp = containers.Map({'spark.executor.cores'}, {'1'});
conf = matlab.compiler.mlspark.SparkConf('AppName','myApp', ...
                        'Master','local[1]','SparkProperties',sparkProp);
sc = matlab.compiler.mlspark.SparkContext(conf);

%% groupBy
inRDD = sc.parallelize({1,2,3,4,5});
outRDD = inRDD.groupBy(@(x)(mod(x,2))).collect(); % {{0,{2,4}},{1,{1,3,5}

버전 내역

R2016b에 개발됨

참고 항목

groupByKey | parallelize

groupBy

구문

설명

입력 인수

obj — 입력 RDD RDD 객체

func — 그룹화 기준 함수 함수 핸들

numPartitions — 생성할 분할 개수 스칼라 값

출력 인수

result — 그룹화된 요소를 포함하는 RDD RDD 객체

예제

그룹화된 항목으로 구성된 RDD

버전 내역

참고 항목

`obj` — 입력 RDD
`RDD` 객체

`func` — 그룹화 기준 함수
함수 핸들

`numPartitions` — 생성할 분할 개수
스칼라 값

`result` — 그룹화된 요소를 포함하는 RDD
`RDD` 객체