주요 콘텐츠

groupBy

그룹화된 항목으로 구성된 RDD 반환

구문

result = groupBy(obj,func,numPartitions)

설명

result = groupBy(obj,func,numPartitions)func로 지정된 사용자 지정 기준에 따라 obj의 요소를 그룹화합니다. numPartitions는 결과로 생성되는 RDD에 생성할 분할 개수를 지정합니다.

입력 인수

모두 확장

입력 RDD로, RDD 객체로 지정됩니다

그룹화를 수행하는 함수로, 함수 핸들로 지정됩니다.

데이터형: function_handle

생성할 분할 개수로, 스칼라 값으로 지정됩니다.

데이터형: double

출력 인수

모두 확장

입력 RDD의 그룹화된 요소를 포함하는 파이프라인 RDD로, RDD 객체로 반환됩니다.

예제

모두 확장

사용자 지정 기준에 따라 RDD 요소를 그룹화합니다.

%% Connect to Spark
sparkProp = containers.Map({'spark.executor.cores'}, {'1'});
conf = matlab.compiler.mlspark.SparkConf('AppName','myApp', ...
                        'Master','local[1]','SparkProperties',sparkProp);
sc = matlab.compiler.mlspark.SparkContext(conf);

%% groupBy
inRDD = sc.parallelize({1,2,3,4,5});
outRDD = inRDD.groupBy(@(x)(mod(x,2))).collect(); % {{0,{2,4}},{1,{1,3,5}

버전 내역

R2016b에 개발됨

참고 항목

|