mapreduce
메모리에 담을 수 없을 정도로 큰 데이터 세트를 분석하기 위한 프로그래밍 기법
구문
설명
는 위에 열거된 구문에 outds
= mapreduce(___,Name,Value
)Name,Value
쌍 인수를 하나 이상 추가 옵션으로 지정합니다. 예를 들어, 'OutputFolder'
다음에 출력 폴더의 경로를 나타내는 문자형 벡터를 지정할 수 있습니다.
예제
입력 인수
출력 인수
팁
mapreduce
알고리즘을 디버그하여 키-값 쌍이 여러 단계를 진행하는 방법을 검토하면 항상 도움이 될 수 있습니다. 데이터 이동을 검토하려면 map 함수와 reduce 함수에 중단점을 설정하십시오. 중단점은mapreduce
실행을 중지하므로,KeyValueStore
나ValueIterator
같은 관련 변수의 현재 상태를 검토할 수 있습니다. 자세한 내용은 Debug MapReduce Algorithms 항목을 참조하십시오.모든 플랫폼에서
mapreduce
성능을 최적화하기 위한 몇 가지 권장 사항은 다음과 같습니다.map 함수의 호출 횟수를 최소화합니다. 가장 쉬운 방법은 입력 데이터저장소의
ReadSize
속성값을 늘리는 것입니다. 결과적으로,mapreduce
가 더 큰 데이터 블록을 map 함수에 전달하게 되어, 데이터저장소가 읽기 횟수를 감소시켜 사용률을 낮춥니다.map 함수와 reduce 함수 간에 전송되는 중간 데이터의 크기를 줄입니다. 한 가지 방법은 map 함수 내에
unique
를 사용하여 유사한 키를 결합하는 것입니다. 이 기법에 대한 예제를 보려면 Compute Mean by Group Using MapReduce 항목을 참조하십시오.
확장 기능
버전 내역
R2014b에 개발됨
참고 항목
datastore
| mapreducer
| gcmr
| tall
| KeyValueStore
| ValueIterator