MATLAB은 기존의 빅데이터 저장공간에 액세스하고 통합하여 빅데이터와의 작업을 간소화하고 가용 리소스에 기반해 사용자의 데이터 처리 필요에 맞춰 조정할 수 있습니다.
MATLAB을 사용하면 다음과 같은 작업을 할 수 있습니다.
- 기존 파일 시스템, 클라우드 기반 저장공간(AWS® S3, Azure® Blob), SQL 및 NoSQL 데이터베이스, 데이터 플랫폼 등 다양한 저장공간의 빅데이터에 액세스
- 보다 작은 샘플 데이터를 대상으로 정리, 분석 및 머신러닝 모델 개발 수행
- 동일한 코드를 알고리즘 재작성 없이 빅데이터로 확장하여 적용
- 로컬 컴퓨터, 기존 HPC 클러스터, Spark™ 클러스터, 클라우드 데이터 플랫폼 등 사용자의 필요에 맞게 조정된 처리 능력 활용
“MATLAB을 사용한 고성능 컴퓨팅을 통해 우리는 전에는 분석하지 못했던 빅데이터를 처리할 수 있게 되었습니다. 우리는 이 데이터에서 배운 내용을 토대로 인간의 활동이 생태계의 건강에 미치는 영향을 파악하여, 사람들이 바다와 육지에서 할 일을 책임감 있게 결정하는 데 필요한 정보를 제공합니다.”
Dr. Christopher Clark, Cornell University
MATLAB 및 Simulink를 사용한 빅데이터
데이터 액세스
MATLAB을 사용하여 대규모 파일의 모음, 데이터베이스, 데이터 플랫폼, 클라우드 저장공간 시스템으로부터 데이터를 읽어 들일 수 있습니다. MATLAB의 데이터저장소를 사용하면 단일 컴퓨터의 메모리에 담을 수 없을 정도로 크거나 여러 파일에 걸쳐 분산된 데이터에 액세스할 수 있습니다. 이러한 데이터저장소는 다양한 파일 형식(CSV, Parquet, MDF 등)과 저장공간 시스템(AWS S3, Azure Blob, HDFS, 데이터베이스, 데이터 플랫폼)을 지원합니다. 또한 사용자는 사용자 지정 파일 형식에 맞는 자체 데이터저장소를 만들 수도 있습니다.
자세히 알아보기
- 영상
- Parquet 및 AVRO 파일
- 테이블 형식 텍스트, CSV, 스프레드시트
- MDF 파일
- 데이터베이스 (SQL, NoSQL)
- Databricks, Domino Data Lab 및 Cloudera®
탐색, 정리, 변환 및 예측 모델 개발
MATLAB을 사용하면 빅데이터를 대상으로 데이터 분석과 데이터 엔지니어링을 효율적으로 수행할 수 있습니다. MATLAB은 Parquet 파일의 조건절 푸시다운을 지원하므로 소스에서 빅데이터를 필터링할 수 있습니다. 읽기가 완료된 후에는 다양한 데이터저장소의 데이터를 전처리와 데이터 엔지니어링을 위해 변환하고 결합할 수 있습니다.
MATLAB의 tall형 배열은 느긋한 계산법 프레임워크를 사용하며, 이를 통해 메모리 내 테이블 및 타임테이블 기반 코드를 재작성 없이 빅데이터에 대해 실행할 수 있습니다. tall형 배열은 수백 가지의 데이터 조작과 수학, 통계 및 머신러닝 함수를 지원하며, 사용자는 이를 활용해서 빅데이터를 대상으로 간단한 통계 분석이나 예측 모델 개발을 수행할 수 있습니다.
자세히 알아보기
- tall형 배열
- MATLAB 코드에 두 줄만 추가해서 빅데이터에 활용하기 (블로그)
- 데이터저장소 변환 및 결합
빅데이터 IT 인프라와의 통합 및 실행
MATLAB을 통해 기존 인프라와 통합하여 빅데이터를 효율적으로 처리할 수 있습니다. 사용자는 배포 프로덕션 모드 외에도 병렬 처리를 사용하여 MATLAB 코드를 확장하여 대화형 방식으로 실행할 수 있습니다. 스트리밍 및 일괄 처리 응용 프로그램의 분석 정보를 사용료 없이 배포할 수 있습니다. 또한 Databricks, Domino Data Lab, Google® BigQuery 같은 다양한 클라우드 데이터 플랫폼에서 빅데이터에 대해 MATLAB 코드와 모델을 실행할 수 있습니다.