Main Content

SparkMATLAB API를 사용하여 애플리케이션 배포하기

Spark™용 MATLAB® API를 사용하여 MATLAB 애플리케이션을 만들고 Spark에서 실행

지원되는 플랫폼: Linux®만 해당.

Spark용 MATLAB API를 사용하여 애플리케이션을 배포하는 작업은 다음과 같이 두 부분으로 구성됩니다.

  • Spark용 MATLAB API를 사용하여 애플리케이션을 만들고 MATLAB 데스크탑 환경에서 독립 실행형 애플리케이션으로 패키징합니다.

  • Linux 셸을 통해 Spark 기반 클러스터에서 독립 실행형 애플리케이션을 실행합니다.

Spark용 MATLAB API를 사용하여 애플리케이션을 만들 때 MATLAB 코드에서 flatMap, mapPartitions, aggregate와 같은 Spark 함수를 사용할 수 있습니다. 이 API는 Spark 프로그래밍 모델을 MATLAB에 노출(제공)하므로, 수많은 Spark 함수를 MATLAB에서 구현할 수 있습니다. 이러한 MATLAB 구현은 대부분 다양한 유형의 분석을 수행하기 위해 입력값으로 함수 핸들이나 익명 함수를 받습니다.

API를 사용하면 단일 컴퓨터에서 비분산 모드로, MATLAB 데스크탑 환경 내에서 애플리케이션을 대화형 방식으로 실행할 수 있습니다. 동일한 컴퓨터의 두 번째 MATLAB 세션은 워커 역할을 합니다. 이 기능은 애플리케이션을 Spark 기반 클러스터에 배포하기 전에 디버그하는 데 도움이 될 수 있습니다. Spark용 MATLAB API를 사용하여 대화형 방식으로 디버그하려면 MATLAB 환경을 구성해야 합니다. 자세한 내용은 Configure Environment for Interactive Debugging 항목을 참조하십시오.

Spark용 MATLAB API를 사용하는 일반적인 워크플로는 다음과 같습니다.

  1. Spark 속성을 지정합니다.

  2. SparkConf 객체를 만듭니다.

  3. SparkContext 객체를 만듭니다.

  4. 데이터로부터 RDD 객체를 만듭니다.

  5. RDD 객체에서 작업을 수행합니다.

mcc 명령 또는 deploytool을 사용하여 이 API로 만든 애플리케이션을 독립 실행형 애플리케이션으로 패키징할 수 있습니다. 그런 다음 Linux 셸을 통해 Spark 기반 클러스터에서 애플리케이션을 실행할 수 있습니다.

참고

Spark용 MATLAB API를 사용하여 개발된 MATLAB 애플리케이션은 tall형 배열을 포함하는 경우 배포할 수 없습니다.

전체 예제를 보려면 Deploy Applications to Spark Using the MATLAB API for Spark 항목을 참조하십시오. 동일한 지침에 따라, Spark용 MATLAB API를 사용하여 만든 애플리케이션을 CLOUDERA® CDH에 배포할 수 있습니다.

클래스

matlab.compiler.mlspark.SparkConfInterface class to configure an application with Spark parameters as key-value pairs
matlab.compiler.mlspark.SparkContextInterface class to initialize a connection to a Spark enabled cluster
matlab.compiler.mlspark.RDDInterface class to represent a Spark Resilient Distributed Dataset (RDD)

도움말 항목