MATLAB은 기존의 빅데이터 저장공간에 액세스하고 통합하여 빅데이터와의 작업을 간소화하고 가용 리소스에 기반해 사용자의 데이터 처리 필요에 맞춰 조정할 수 있습니다.
MATLAB을 사용하면 다음과 같은 작업을 할 수 있습니다.
- 기존 파일 시스템, 클라우드 기반 저장공간(AWS® S3, Azure® Blob), SQL 및 NoSQL 데이터베이스, 데이터 플랫폼 등 다양한 저장공간의 빅데이터에 액세스
- 보다 작은 샘플 데이터를 대상으로 정리, 분석 및 머신러닝 모델 개발 수행
- 동일한 코드를 알고리즘 재작성 없이 빅데이터로 확장하여 적용
- 로컬 컴퓨터, 기존 HPC 클러스터, Spark™ 클러스터, 클라우드 데이터 플랫폼 등 사용자의 필요에 맞게 조정된 처리 능력 활용
MATLAB 및 Simulink를 사용한 빅데이터
데이터 액세스
MATLAB을 사용하여 대규모 파일의 모음, 데이터베이스, 데이터 플랫폼, 클라우드 저장공간 시스템으로부터 데이터를 읽어 들일 수 있습니다. MATLAB의 데이터저장소를 사용하면 단일 컴퓨터의 메모리에 담을 수 없을 정도로 크거나 여러 파일에 걸쳐 분산된 데이터에 액세스할 수 있습니다. 이러한 데이터저장소는 다양한 파일 형식(CSV, Parquet, MDF 등)과 저장공간 시스템(AWS S3, Azure Blob, HDFS, 데이터베이스, 데이터 플랫폼)을 지원합니다. 또한 사용자는 사용자 지정 파일 형식에 맞는 자체 데이터저장소를 만들 수도 있습니다.
자세히 알아보기
- 영상
- Parquet 및 AVRO 파일
- 테이블 형식 텍스트, CSV, 스프레드시트
- MDF 파일
- 데이터베이스 (SQL, NoSQL)
- Databricks, Domino Data Lab 및 Cloudera®
탐색, 정리, 변환 및 예측 모델 개발
MATLAB을 사용하면 빅데이터를 대상으로 데이터 분석과 데이터 엔지니어링을 효율적으로 수행할 수 있습니다. MATLAB은 Parquet 파일의 조건절 푸시다운을 지원하므로 소스에서 빅데이터를 필터링할 수 있습니다. 읽기가 완료된 후에는 다양한 데이터저장소의 데이터를 전처리와 데이터 엔지니어링을 위해 변환하고 결합할 수 있습니다.
MATLAB의 tall형 배열은 느긋한 계산법 프레임워크를 사용하며, 이를 통해 메모리 내 테이블 및 타임테이블 기반 코드를 재작성 없이 빅데이터에 대해 실행할 수 있습니다. tall형 배열은 수백 가지의 데이터 조작과 수학, 통계 및 머신러닝 함수를 지원하며, 사용자는 이를 활용해서 빅데이터를 대상으로 간단한 통계 분석이나 예측 모델 개발을 수행할 수 있습니다.
자세히 알아보기
- tall형 배열
- MATLAB 코드에 두 줄만 추가해서 빅데이터에 활용하기 (블로그)
- 데이터저장소 변환 및 결합
빅데이터 IT 인프라와의 통합 및 실행
MATLAB을 통해 기존 인프라와 통합하여 빅데이터를 효율적으로 처리할 수 있습니다. 사용자는 배포 프로덕션 모드 외에도 병렬 처리를 사용하여 MATLAB 코드를 확장하여 대화형 방식으로 실행할 수 있습니다. 스트리밍 및 일괄 처리 응용 프로그램의 분석 정보를 사용료 없이 배포할 수 있습니다. 또한 Databricks, Domino Data Lab, Google® BigQuery 같은 다양한 클라우드 데이터 플랫폼에서 빅데이터에 대해 MATLAB 코드와 모델을 실행할 수 있습니다.