Main Content

분류할 데이터를 선택하거나 저장한 앱 세션 열기

분류 학습기 앱을 처음 실행할 때 데이터를 가져오거나 이전에 저장한 앱 세션을 열도록 선택할 수 있습니다. 데이터를 가져오려면 작업 공간에서 데이터 선택하기파일에서 데이터 가져오기 항목을 참조하십시오. 저장한 세션을 열려면 앱 세션 저장 및 열기 항목을 참조하십시오.

작업 공간에서 데이터 선택하기

분류 학습기에서 테이블은 숫자형 데이터 및 레이블 데이터를 포함할 수 있기 때문에 데이터를 사용하기 위한 가장 쉬운 방법입니다. 가져오기 툴을 사용하여 데이터를 테이블 형식으로 MATLAB® 작업 공간으로 가져오거나 테이블 함수를 사용하여 작업 공간 변수에서 table을 만듭니다. 테이블 항목을 참조하십시오.

  1. MATLAB 작업 공간으로 데이터를 불러옵니다.

    예측 변수와 응답 변수는 숫자형, categorical형, string형 또는 논리형 벡터, 문자형 벡터로 구성된 셀형 배열 또는 문자형 배열일 수 있습니다. 응답 변수는 500개가 넘는 고유한 클래스 레이블을 포함할 수 없습니다. 참고: 응답 변수가 string형 벡터인 경우 훈련된 모델의 예측은 문자형 벡터로 구성된 셀형 배열을 형성합니다.

    예측 변수 데이터를 테이블 또는 행렬인 하나의 변수로 결합합니다. 예측 변수 데이터와 응답 변수를 추가로 결합하거나 별개로 유지할 수 있습니다.

    예제 데이터 세트는 분류를 위한 예제 데이터 항목을 참조하십시오.

  2. 탭에서 분류 학습기를 클릭합니다.

  3. 학습 탭의 파일 섹션에서 새 세션 > 작업 공간에서를 클릭합니다.

  4. "작업 공간에서 새 세션" 대화 상자에 있는 데이터 세트 변수 아래의 작업 공간 변수 목록에서 테이블이나 행렬을 선택합니다.

    행렬을 선택하는 경우 옵션 버튼을 클릭하여 관측값에 대해 행을 사용할지, 열을 사용할지를 선택합니다.

  5. 응답 변수 아래에서 디폴트 응답 변수를 관측합니다. 이 앱은 데이터 세트 변수에서 적절한 응답 변수를 선택하려고 시도하며 다른 변수를 모두 예측 변수로 처리합니다.

    다른 응답 변수를 사용하려는 경우 다음과 같이 할 수 있습니다.

    • 목록을 사용하여 데이터 세트 변수에서 다른 변수를 선택할 수 있습니다.

    • 작업 공간에서 옵션 버튼을 클릭한 다음 목록에서 변수를 선택하여 별도의 작업 공간 변수를 선택할 수 있습니다.

  6. 예측 변수 아래에서 체크박스를 사용하여 예측 변수를 추가하거나 제거합니다. 모두 추가 또는 모두 지우기를 클릭하여 모든 예측 변수를 추가하거나 제거합니다. 테이블에서 여러 예측 변수를 선택한 다음 N개 추가 또는 N개 제거를 클릭하여 추가하거나 제거할 수도 있습니다. 여기서 N은 선택한 예측 변수의 개수입니다. 예측 변수를 여러 개 선택하면 모두 추가 버튼과 모두 지우기 버튼이 N 추가 버튼과 N 제거 버튼으로 바뀝니다.

  7. 디폴트 검증 방식을 수락하고 계속하려면 세션 시작을 클릭합니다. 디폴트 검증 옵션은 과적합을 방지하는 5겹 교차 검증입니다.

    대규모 데이터 세트가 있는 경우 홀드아웃 검증으로 전환해야 할 수도 있습니다. 자세한 내용은 검증 방식 선택하기 항목을 참조하십시오.

참고

명령줄에서 직접 앱으로 데이터를 불러오는 것을 선호하는 경우 classificationLearner에 대한 명령줄 호출에서 분류 학습기에 사용할 예측 변수 데이터, 응답 변수, 검증 유형을 지정할 수 있습니다. 자세한 내용은 분류 학습기를 참조하십시오.

다음 단계는 분류 학습기 앱에서 분류 모델을 훈련시키기 항목을 참조하십시오.

파일에서 데이터 가져오기

  1. 학습 탭의 파일 섹션에서 새 세션 > 파일에서를 선택합니다.

  2. 목록에서 스프레드시트, 텍스트 파일 또는 쉼표로 구분된 값(.csv) 파일과 같은 파일 형식을 선택하거나 모든 파일을 선택하여 .dat와 같은 다른 파일 형식을 찾습니다.

분류를 위한 예제 데이터

분류 학습기를 사용하려면 다음 예제 데이터 세트를 사용해 보십시오.

이름크기설명
Fisher Iris

예측 변수 개수: 4
관측값 개수: 150
클래스 개수: 3
응답 변수: Species

세 종의 붓꽃에서 얻은 측정값입니다. 종을 분류해 보십시오.

단계별 예제는 Train Decision Trees Using Classification Learner App 항목을 참조하십시오.

다음과 같이 .csv 파일에서 테이블을 만듭니다.

fishertable = readtable('fisheriris.csv');

Credit Rating

예측 변수 개수: 6
관측값 개수: 3932
클래스 개수: 7
응답 변수: Rating

기업 고객 목록에 대한 재무 비율 및 산업 부문 정보입니다. 응답 변수는 평가 기관에서 지정한 신용 등급(AAA, AA, A, BBB, BB, B, CCC)으로 구성됩니다.

다음과 같이 CreditRating_Historical.dat 파일에서 테이블을 만듭니다.

creditrating = readtable('CreditRating_Historical.dat');

Cars

예측 변수 개수: 7
관측값 개수: 100
클래스 개수: 7
응답 변수: Origin

1970년, 1976년, 1982년의 차량 측정값입니다. 원산지를 분류해 보십시오.

다음과 같이 carsmall.mat 파일의 변수에서 테이블을 만듭니다.

load carsmall
cartable = table(Acceleration, Cylinders, Displacement,...
Horsepower, Model_Year, MPG, Weight, Origin);

Arrhythmia

예측 변수 개수: 279
관측값 개수: 452
클래스 개수: 16
응답 변수: Class(Y)

심장 부정맥의 유무를 나타내는 환자 정보 및 응답 변수입니다. 환자를 "정상"으로 잘못 분류하면 "부정맥 있음"으로 분류된 거짓양성보다 더 심각한 결과가 초래됩니다.

다음과 같이 .mat 파일에서 테이블을 만듭니다.

load arrhythmia
Arrhythmia = array2table(X);
Arrhythmia.Class = categorical(Y);

Ovarian Cancer

예측 변수 개수: 4000
관측값 개수: 216
클래스 개수: 2
응답 변수: Group

WCX2 단백질 배열을 사용하여 생성된 난소암 데이터입니다. 95개 대조군과 121개 난소암을 포함합니다.

다음과 같이 .mat 파일에서 테이블을 만듭니다.

load ovariancancer
ovariancancer = array2table(obs);
ovariancancer.Group = categorical(grp);

Ionosphere

예측 변수 개수: 34
관측값 개수: 351
클래스 개수: 2
응답 변수: Group(Y)

16개의 고주파 안테나로 구성된 위상 배열의 신호입니다. 반환된 양질의(“g”) 레이더 신호는 전리층에 존재하는 어떤 유형의 구조에 대한 증거를 보여주는 신호입니다. 불량(“b”) 신호는 전리층을 통과하는 신호입니다.

다음과 같이 .mat 파일에서 테이블을 만듭니다.

load ionosphere
ionosphere = array2table(X);
ionosphere.Group = Y;

검증 방식 선택하기

피팅된 모델의 예측 정확도를 검토하는 검증 방법을 선택합니다. 검증을 통해 훈련 데이터와 비교하여 새 데이터에 대한 모델 성능을 추정하여 최상의 모델을 선택할 수 있습니다. 검증은 과적합을 방지합니다. 모델을 훈련하기 전에 검증 방식을 선택하면 같은 검증 방식을 사용하여 세션의 모든 모델을 비교할 수 있습니다.

디폴트 검증 방식을 시도하고 세션 시작을 클릭하여 계속합니다. 디폴트 옵션은 과적합을 방지하는 5겹 교차 검증입니다.

대규모 데이터 세트가 있고 훈련 모델에서 교차 검증을 사용하는 데 너무 오래 걸리는 경우 데이터를 다시 가져와서 더 빠른 홀드아웃 검증을 대신 시도하십시오.

예약된 데이터가 없다고 가정합니다(디폴트 설정이 그러함).

  • 교차 검증: 데이터 세트를 분할하는 겹(또는 분할)의 개수를 선택합니다.

    k겹을 선택하면 앱이 다음 작업을 수행합니다.

    1. 데이터를 k개의 서로소 집합 또는 겹으로 분할합니다.

    2. 각 검증 겹에 대해 다음을 수행합니다.

      1. 훈련 겹 관측값(검증 겹에 없는 관측값)을 사용하여 모델을 훈련시킵니다.

      2. 검증 겹 데이터를 사용하여 모델 성능을 평가합니다.

    3. 모든 겹에 대한 평균 검증 오차를 계산합니다.

    이 방법은 모든 데이터로 훈련된 최종 모델의 예측 정확도에 대한 양호한 추정치를 제공합니다. 이 방법은 여러 번의 피팅을 필요로 하지만 모든 데이터를 효율적으로 사용하므로, 작은 데이터 세트에 권장됩니다.

  • 홀드아웃 검증: 검증 세트로 사용할 데이터의 백분율을 선택합니다. 앱이 훈련 세트에서 모델을 훈련시키고 검증 세트로 성능을 평가합니다. 검증에 사용된 모델은 데이터의 일부만을 기반으로 하므로, 홀드아웃 검증은 대규모 데이터 세트에만 권장됩니다. 최종 모델은 전체 데이터 세트로 훈련됩니다.

  • 재대입 검증: 과적합을 방지하지 않습니다. 앱이 훈련에 모든 데이터를 사용하고 동일한 데이터에 대한 오차율을 계산합니다. 별도의 검증 데이터가 없으면 새 데이터에 대해 비현실적인 모델 성능 추정치를 얻게 됩니다. 즉, 훈련 표본 정확도가 비현실적으로 높을 가능성이 있고 예측 정확도가 더 낮을 가능성이 있습니다.

    훈련 데이터에 대한 과적합을 방지하려면 다른 검증 방식을 대신 선택하십시오.

참고

이 검증 방식은 분류 학습기가 검증 메트릭을 계산하는 방식에만 영향을 미칩니다. 최종 모델은 검정을 위해 예약된 데이터를 제외하고 항상 전체 데이터 세트를 사용하여 훈련됩니다.

데이터를 선택한 후 훈련시키는 모든 분류 모델은 이 대화 상자에서 선택한 것과 똑같은 검증 방식을 사용합니다. 같은 검증 방식을 사용하여 세션의 모든 모델을 비교할 수 있습니다.

검증 선택을 변경하고 새 모델을 훈련시키기 위해 데이터를 다시 선택할 수 있지만, 훈련된 모델을 잃게 됩니다. 앱에서는 데이터를 가져오면 새 세션이 시작된다는 경고를 표시합니다. 유지하려는 훈련된 모델을 모두 작업 공간에 저장한 다음, 데이터를 가져오십시오.

모델을 훈련시키는 다음 단계는 분류 학습기 앱에서 분류 모델을 훈련시키기 항목을 참조하십시오.

(선택 사항) 검정에 사용할 데이터 예약하기

데이터를 분류 학습기로 가져올 때 검정을 위해 일정 비율의 데이터를 예약하도록 지정할 수 있습니다. 새 세션 대화 상자의 테스트 섹션에서 체크박스를 클릭하여 검정 데이터 세트를 확보합니다. 가져온 데이터 중에서 검정 세트로 사용할 데이터의 비율을 지정합니다. 원한다면 앱 세션을 시작한 후 별도의 검정 데이터 세트를 가져오도록 선택할 수도 있습니다.

검정 세트를 사용해 훈련된 모델의 성능을 평가할 수 있습니다. 특히, 검증 메트릭이 새 데이터에 대한 모델 성능의 양호한 추정치를 제공하는지 여부를 확인할 수 있습니다. 자세한 내용은 Evaluate Test Set Model Performance 항목을 참조하십시오. 예제는 Train Classifier Using Hyperparameter Optimization in Classification Learner App 항목을 참조하십시오.

참고

이 앱은 모델 훈련을 위해 검정 데이터를 사용하지 않습니다. 앱에서 내보낸 모델은 검정을 위해 예약된 데이터를 제외하고 전체 훈련 및 검증 데이터에 대해 훈련됩니다.

앱 세션 저장 및 열기

분류 학습기에서 현재 앱 세션을 저장하고 이전에 저장한 앱 세션을 열 수 있습니다.

  • 현재 앱 세션을 저장하려면 학습 탭의 파일 섹션에서 저장을 클릭하십시오. 현재 세션을 처음 저장할 때 세션 파일 이름과 파일 위치를 지정해야 합니다. 세션 저장 옵션을 선택하면 현재 세션이 저장되고 세션을 다른 이름으로 저장 옵션을 선택하면 현재 세션이 새 파일에 저장됩니다. 간소화된 세션으로 저장 옵션은 현재 앱 세션의 간소화된 버전을 저장하므로 저장된 세션의 파일 크기가 더 작아집니다. 간소화된 세션으로 저장 옵션은 현재 세션의 모든 훈련된 모델에서 훈련 데이터를 영구적으로 삭제합니다.

  • 저장한 앱 세션을 열려면 파일 섹션에서 열기를 클릭하십시오. "열려는 파일 선택" 대화 상자에서 열고 싶은 저장된 세션을 선택합니다.

관련 항목