Main Content

대용량 파일과 빅데이터

파일 모음과 대규모 데이터 세트 모음에 액세스하여 처리하기

대규모 데이터 세트는 가용 메모리를 넘어서는 거대한 파일의 형태를 띠거나 처리 시간이 긴 파일의 형태를 띨 수 있습니다. 또는, 수많은 작은 파일들이 모여 대규모 데이터 세트를 이룰 수도 있습니다. 대규모 데이터 세트에 대한 작업 방식은 하나만 있는 것이 아니므로, MATLAB®에는 대규모 데이터에 액세스하고 이를 처리하기 위한 여러 가지 방법이 있습니다.

그중 하나는 한 번에 데이터에 조금씩 액세스할 수 있는 데이터저장소를 만드는 것입니다. 데이터저장소를 사용하면 데이터의 점진적 가져오기를 관리할 수 있습니다. mean, histogram과 같은 일반적인 MATLAB 함수를 사용하여 데이터를 분석하려면 데이터저장소 위에 tall형 배열을 만드십시오. 더 복잡한 문제의 경우, 데이터의 청크화와 축약을 정의하는 MapReduce 알고리즘을 작성할 수 있습니다.

카테고리

  • 데이터저장소
    대규모의 데이터 읽기
  • tall형 배열
    행이 너무 많아서 메모리를 초과하는 배열
  • MapReduce
    메모리에 담을 수 없을 정도로 큰 데이터 세트를 분석하기 위한 프로그래밍 기법
  • 대용량 MAT 파일
    메모리로 불러오지 않고 변수에 액세스 및 변경
  • Parquet 파일
    Parquet 파일 읽기 및 쓰기
  • 메모리 매핑
    더욱 빠른 액세스를 위해 파일 데이터를 메모리에 매핑