Main Content

Statistics and Machine Learning Toolbox 예제 데이터 세트

Statistics and Machine Learning Toolbox™는 파일 형식 및 크기가 다른 다양한 데이터 세트를 포함하고 있습니다. 이러한 데이터 세트는 문서 예제에서 소프트웨어 기능을 설명하는 데 사용됩니다. 여기서는 제공되는 데이터 세트의 일부만 요약하여 설명하고 있으며 전체 목록은 아닙니다.

제품 설치를 통해 제공되는 데이터 세트

다음 목록에는 Statistics and Machine Learning Toolbox를 설치하면 사용 가능한 데이터 세트가 설명되어 있습니다. File Contents 열에는 파일을 작업 공간으로 불러온 후에 whos 명령을 입력했을 때 표시되는 출력이 나와 있습니다.

파일 이름설명불러오는 방법파일 내용
acetylene.mat

상관관계가 있는 예측 변수를 포함하는 화학 반응 데이터

load acetylene.mat

  Name              Size             Bytes  Class     Attributes

  Description      16x105             3360  char                
  x1               16x1                128  double              
  x2               16x1                128  double              
  x3               16x1                128  double              
  y                16x1                128  double              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

carbig.mat

차량 측정값(1970~1982)

load carbig.mat

  Name                Size            Bytes  Class     Attributes

  Acceleration      406x1              3248  double              
  Cylinders         406x1              3248  double              
  Displacement      406x1              3248  double              
  Horsepower        406x1              3248  double              
  MPG               406x1              3248  double              
  Mfg               406x13            10556  char                
  Model             406x36            29232  char                
  Model_Year        406x1              3248  double              
  Origin            406x7              5684  char                
  Weight            406x1              3248  double              
  cyl4              406x5              4060  char                
  org               406x7              5684  char                
  when              406x5              4060  char                

carsmall.mat

1970년, 1976년, 1982년의 차량 측정값이 포함된 carbig.mat의 서브셋

load carsmall.mat

  Name                Size            Bytes  Class     Attributes

  Acceleration      100x1               800  double              
  Cylinders         100x1               800  double              
  Displacement      100x1               800  double              
  Horsepower        100x1               800  double              
  MPG               100x1               800  double              
  Mfg               100x13             2600  char                
  Model             100x33             6600  char                
  Model_Year        100x1               800  double              
  Origin            100x7              1400  char                
  Weight            100x1               800  double              

census1994.mat

UCI Machine Learning Repository의 미국 인구조사국 인구통계자료

load census1994.mat

  Name                 Size              Bytes  Class    Attributes

  Description         20x74               2960  char               
  adultdata        32561x15            1872566  table              
  adulttest        16281x15             944466  table              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

cereal.mat

아침 식사용 시리얼의 성분

load cereal.mat

  Name            Size            Bytes  Class     Attributes

  Calories       77x1               616  double              
  Carbo          77x1               616  double              
  Cups           77x1               616  double              
  Fat            77x1               616  double              
  Fiber          77x1               616  double              
  Mfg            77x1               154  char                
  Name           77x1             10288  cell                
  Potass         77x1               616  double              
  Protein        77x1               616  double              
  Shelf          77x1               616  double              
  Sodium         77x1               616  double              
  Sugars         77x1               616  double              
  Type           77x1               616  double              
  Variables      15x2              4134  cell                
  Vitamins       77x1               616  double              
  Weight         77x1               616  double              

cities.mat

미국 대도시 지역의 삶의 질 등급

load cities.mat

  Name              Size            Bytes  Class     Attributes

  categories        9x14              252  char                
  names           329x43            28294  char                
  ratings         329x9             23688  double              

discrim.mat

판별분석에 사용되는 cities.mat의 한 가지 버전

load discrim.mat

  Name              Size            Bytes  Class     Attributes

  big              26x43             2236  char                
  categories        9x14              252  char                
  group           329x1              2632  double              
  idx              26x1               208  double              
  names           329x43            28294  char                
  ratings         329x9             23688  double              

examgrades.mat

0~100 척도의 시험 성적

load examgrades.mat

  Name          Size            Bytes  Class     Attributes

  grades      120x5              4800  double              

fisheriris.mat 또는 fisheriris.csv

피셔(Fisher)의 1936년 붓꽃 데이터

load fisheriris.mat

  Name           Size            Bytes  Class     Attributes

  meas         150x4              4800  double              
  species      150x1             18100  cell                

fisheriris = readtable("fisheriris.csv");

  Name              Size            Bytes  Class    Attributes

  fisheriris      150x5             24805  table              

flu.mat

미국의 여러 지역에 대한 Google Flu Trends 추정 ILI(인플루엔자 유사 질병) 비율 및 Sentinel Provider Reports 기반 CDC 가중 ILI 비율

load flu.mat

  Name              Size             Bytes  Class      Attributes

  Description       1x306              612  char                 
  flu              52x11             14640  dataset              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

gas.mat

1993년 매사추세츠주의 가솔린 가격

load gas.mat

  Name         Size            Bytes  Class     Attributes

  price1      20x1               160  double              
  price2      20x1               160  double              

hald.mat

시멘트와 혼합 재료의 발열

load hald.mat

  Name              Size            Bytes  Class     Attributes

  Description      22x58             2552  char                
  hald             13x5               520  double              
  heat             13x1               104  double              
  ingredients      13x4               416  double              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

hogg.mat

각각의 우유 출하에 포함된 박테리아 수

load hogg.mat

  Name      Size            Bytes  Class     Attributes

  hogg      6x5               240  double              
  x1        6x1                48  double              
  x2        6x1                48  double              
  x3        6x1                48  double              
  x4        6x1                48  double              
  x5        6x1                48  double              

hospital.xls 또는 hospital.mat

시뮬레이션된 병원 데이터

hospital = readtable("hospital.xls");

  Name            Size            Bytes  Class    Attributes

  hospital      100x12            44579  table              

load hospital.mat

  Name               Size            Bytes  Class      Attributes

  Description        1x23               46  char                 
  hospital         100x7             43784  dataset              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

imports-85.mat

UCI Machine Learning Repository의 1985년 자동차 수입 데이터베이스

load imports-85.mat

  Name               Size            Bytes  Class     Attributes

  Description        9x79             1422  char                
  X                205x26            42640  double              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

indomethacin.mat

6명의 피험자를 대상으로 8시간 동안 관찰한 혈류 내 인도메타신(indomethacin) 약물 농도

load indomethacin.mat

  Name                Size            Bytes  Class     Attributes

  Description        14x50             1400  char                
  concentration      66x1               528  double              
  subject            66x1               528  double              
  time               66x1               528  double              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

ionosphere.mat

UCI Machine Learning Repository의 전리층(ionosphere) 데이터 세트

load ionosphere.mat

  Name               Size            Bytes  Class     Attributes

  Description        5x79              790  char                
  X                351x34            95472  double              
  Y                351x1             37206  cell                
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

kmeansdata.mat

4차원 군집화 데이터

load kmeansdata.mat

  Name        Size            Bytes  Class     Attributes

  X         560x4             17920  double              

lawdata.mat

15개 로스쿨의 평균 성적 및 LSAT 점수

load lawdata.mat

  Name       Size            Bytes  Class     Attributes

  gpa       15x1               120  double              
  lsat      15x1               120  double              

mileage.mat

2개 공장의 3가지 차량 모델에 대한 주행거리 데이터

load mileage.mat

  Name         Size            Bytes  Class     Attributes

  mileage      6x3               144  double              

moore.mat

5가지 예측 변수에 대한 생화학적 산소 요구량

load moore.mat

  Name        Size            Bytes  Class     Attributes

  moore      20x6               960  double              

morse.mat

전신 기사가 아닌 일반인의 모스 부호 차이 인식

load morse.mat

  Name                  Size             Bytes  Class     Attributes

  Y0                   36x8               2304  double              
  dissimilarities       1x630             5040  double              
  morseChars           36x2               7824  cell                

parts.mat

36개 원형 부품의 차원별 흔들림 공차(dimensional run-out)

load parts.mat

  Name         Size            Bytes  Class     Attributes

  runout      36x4              1152  double              

polydata.mat

다항식 피팅에 대한 표본 데이터

load polydata.mat

  Name      Size             Bytes  Class     Attributes

  x         1x43               344  double              
  x1        1x101              808  double              
  y         1x43               344  double              
  y1        1x101              808  double              

popcorn.mat

팝콘 기기 유형 및 브랜드별 팝콘 산출량

load popcorn.mat

  Name         Size            Bytes  Class     Attributes

  popcorn      6x3               144  double              

reaction.mat

Hougen-Watson 모델에 대한 반응 속도론

load reaction.mat

  Name            Size            Bytes  Class     Attributes

  beta            5x1                40  double              
  model           1x6                12  char                
  rate           13x1               104  double              
  reactants      13x3               312  double              
  xn              3x10               60  char                
  yn              1x13               26  char                

repeatedmeas.mat

시뮬레이션된 반복 측정 데이터

load repeatedmeas.mat

  Name          Size            Bytes  Class    Attributes

  between      30x12             6415  table              
  within        8x2              1863  table              

stockreturns.mat

시뮬레이션된 주식수익률

load stockreturns.mat

  Name          Size            Bytes  Class     Attributes

  stocks      100x10             8000  double              

특정 예제에서 사용 가능한 데이터 세트

다음 목록에는 Statistics and Machine Learning Toolbox의 특정 예제를 열어서 사용할 수 있는 데이터 세트가 일부 설명되어 있습니다. 이 목록은 전체 목록이 아닙니다. File Contents 열에는 파일을 작업 공간으로 불러온 후에 whos 명령을 입력했을 때 표시되는 출력이 나와 있습니다.

파일 이름설명불러오는 방법파일 내용
arrhythmia.mat

심장 부정맥의 유무를 나타내는 환자 정보 및 응답 변수

openExample("arrhythmia.mat")
load arrhythmia.mat

  Name               Size               Bytes  Class     Attributes

  Description        8x69                1104  char                
  VarNames           1x279              41570  cell                
  X                452x279            1008864  double              
  Y                452x1                 3616  double              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

batterysmall.mat

리튬 이온 배터리의 센서 데이터(전압, 전류 및 온도)와 충전 상태 및 [1]에 있는 데이터의 일부

openExample("batterysmall.mat")
load batterysmall.mat

  Name                   Size              Bytes  Class     Attributes

  dataLarge              1x1             1886400  struct              
  testDataSmall       1319x6               65361  table               
  trainDataSmall      6773x6              327153  table               

CreditRating_Historical.dat

기업 고객 목록에 대한 재무 비율, 산업 부문, 신용 등급

openExample("CreditRating_Historical.dat")
creditrating = readtable("CreditRating_Historical.dat");

  Name                 Size             Bytes  Class    Attributes

  creditrating      3932x8             649029  table              

humanactivity.mat

앉기, 서기, 걷기, 뛰기, 춤추기의 다섯 가지 동작에 대한 사람의 행동 인식 데이터

openExample("humanactivity.mat")
load humanactivity.mat

  Name                 Size               Bytes  Class     Attributes

  Description         29x1                 5918  string              
  actid            24075x1               192600  double              
  actnames             1x5                  592  cell                
  feat             24075x60            11556000  double              
  featlabels          60x1                 8292  cell                
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

nlpdata.mat

MathWorks® 문서에서 추출된 자연어 처리 데이터

openExample("nlpdata.mat")
load nlpdata.mat

  Name                 Size                  Bytes  Class          Attributes

  Description         26x68                   3536  char                     
  X                31572x34023            36716304  double         sparse    
  Y                31572x1                   33094  categorical              
  corpus           31572x1                 6149252  cell                     
  dictionary       34023x1                 4137912  cell                     
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

NYCHousing2015.mat

2015년 뉴욕시의 부동산 매매 정보

openExample("NYCHousing2015.mat")
load NYCHousing2015.mat

  Name                    Size               Bytes  Class    Attributes

  NYCHousing2015      91446x10            32103067  table              

ovariancancer.mat

[2][3] 자료에 기반한 난소암 관련 4,000개의 예측 변수에 대한 그룹화된 관측값

openExample("ovariancancer.mat")
load ovariancancer.mat

  Name        Size                Bytes  Class     Attributes

  grp       216x1                 25056  cell                
  obs       216x4000            3456000  single              

spectra.mat

60개 가솔린 표본의 NIR 스펙트럼 및 옥탄 수치

openExample("spectra.mat")
load spectra.mat

  Name              Size              Bytes  Class      Attributes

  Description      11x72               1584  char                 
  NIR              60x401            192480  double               
  octane           60x1                 480  double               
  spectra          60x2              195660  dataset              
자세한 내용을 보려면 Description 변수를 읽어 보십시오.

참고 문헌

[1] Kollmeyer, Phillip, Carlos Vidal, Mina Naguib, and Michael Skells. "LG 18650HG2 Li-ion Battery Data and Example Deep Neural Network xEV SOC Estimator Script." Mendeley 3 (March 2020). https://doi.org/10.17632/CP3473X7XV.3.

[2] Conrads, Thomas P., Vincent A. Fusaro, Sally Ross, Don Johann, Vinodh Rajapakse, Ben A. Hitt, Seth M. Steinberg, et al. "High-Resolution Serum Proteomic Features for Ovarian Cancer Detection." Endocrine-Related Cancer 11 (2004): 163–78.

[3] Petricoin, Emanuel F., Ali M. Ardekani, Ben A. Hitt, Peter J. Levine, Vincent A. Fusaro, Seth M. Steinberg, Gordon B. Mills, et al. “Use of Proteomic Patterns in Serum to Identify Ovarian Cancer.” The Lancet 359, no. 9306 (February 2002): 572–77.

관련 항목