회귀를 위한 데이터를 선택하거나 저장한 앱 세션 열기

회귀 학습기 앱을 처음 실행할 때 데이터를 가져오거나 이전에 저장한 앱 세션을 열도록 선택할 수 있습니다. 데이터를 가져오려면 작업 공간에서 데이터 선택하기 및 파일에서 데이터 가져오기 항목을 참조하십시오. 저장한 세션을 열려면 앱 세션 저장 및 열기 항목을 참조하십시오.

작업 공간에서 데이터 선택하기

팁

회귀 학습기에서 테이블은 숫자형 데이터 및 레이블 데이터를 포함할 수 있기 때문에 데이터로 작업하기 위한 가장 쉬운 방법입니다. 가져오기 툴을 사용하여 데이터를 테이블 형식으로 MATLAB^® 작업 공간으로 가져오거나 테이블 함수를 사용하여 작업 공간 변수에서 table을 만듭니다. 테이블 항목을 참조하십시오.

MATLAB 작업 공간으로 데이터를 불러옵니다.
예측 변수는 숫자형, categorical형, string형 또는 논리형 벡터, 문자형 벡터로 구성된 셀형 배열 또는 문자형 배열일 수 있습니다. 응답 변수는 부동소수점 벡터(단정밀도 또는 배정밀도)여야 합니다.
예측 변수 데이터를 테이블 또는 행렬인 하나의 변수로 결합합니다. 예측 변수 데이터와 응답 변수를 추가로 결합하거나 별개로 유지할 수 있습니다.
예제 데이터 세트는 회귀를 위한 예제 데이터 항목을 참조하십시오.
앱 탭에서 회귀 학습기를 클릭하여 앱을 엽니다.
학습 탭의 파일 섹션에서 새 세션 > 작업 공간에서를 클릭합니다.
작업 공간에서 새 세션 대화 상자에 있는 데이터 세트 변수 아래의 작업 공간 변수에서 테이블이나 행렬을 선택합니다.
행렬을 선택하는 경우 옵션 버튼을 클릭하여 관측값에 대해 행을 사용할지, 열을 사용할지를 선택합니다.
응답 변수 아래에서 디폴트 응답 변수를 관측합니다. 이 앱은 데이터 세트 변수에서 적절한 응답 변수를 선택하려고 시도하며 다른 변수를 모두 예측 변수로 처리합니다.
다른 응답 변수를 사용하려는 경우 다음과 같이 할 수 있습니다.
- 목록을 사용하여 데이터 세트 변수에서 다른 변수를 선택할 수 있습니다.
- 작업 공간에서 옵션 버튼을 클릭한 다음 목록에서 변수를 선택하여 별도의 작업 공간 변수를 선택할 수 있습니다.
예측 변수 아래에서 체크박스를 사용하여 예측 변수를 추가하거나 제거합니다. 모두 추가 또는 모두 지우기를 클릭하여 모든 예측 변수를 추가하거나 제거합니다. 테이블에서 여러 예측 변수를 선택한 다음 N개 추가 또는 N개 제거를 클릭하여 추가하거나 제거할 수도 있습니다. 여기서 N은 선택한 예측 변수의 개수입니다. 예측 변수를 여러 개 선택하면 모두 추가 버튼과 모두 지우기 버튼이 N 추가 버튼과 N 제거 버튼으로 바뀝니다.
세션 시작을 클릭하여 디폴트 검증 방식을 수락하고 계속합니다. 디폴트 검증 옵션은 과적합을 방지하는 5겹 교차 검증입니다.
팁
대규모 데이터 세트가 있는 경우, 홀드아웃 검증으로 전환해야 할 수도 있습니다. 자세한 내용은 검증 방식 선택하기 항목을 참조하십시오.

참고

명령줄에서 직접 앱으로 데이터를 불러오는 것을 선호하는 경우 regressionLearner에 대한 명령줄 호출에서 회귀 학습기에 사용할 예측 변수 데이터, 응답 변수, 검증 유형을 지정할 수 있습니다. 자세한 내용은 회귀 학습기 항목을 참조하십시오.

다음 단계는 회귀 학습기 앱에서 회귀 모델 훈련시키기 항목을 참조하십시오.

파일에서 데이터 가져오기

학습 탭의 파일 섹션에서 새 세션 > 파일에서를 선택합니다.
목록에서 스프레드시트, 텍스트 파일 또는 쉼표로 구분된 값(.csv) 파일과 같은 파일 형식을 선택하거나 모든 파일을 선택하여 .dat와 같은 다른 파일 형식을 찾습니다.

회귀를 위한 예제 데이터

회귀 학습기를 사용하려면 다음 예제 데이터 세트를 사용해 보십시오.

이름	크기	설명
Cars	예측 변수 개수: 7 관측값 개수: 406 응답 변수: `MPG`(갤런당 마일)	다양한 자동차 모델에 대한 데이터, 1970년~1982년. 연비(갤런당 마일) 또는 다른 특성 중 하나를 예측합니다. 단계별 예제는 Train Regression Trees Using Regression Learner App 항목을 참조하십시오.
Cars	`carbig` 데이터 세트의 변수에서 테이블을 만듭니다. load carbig cartable = table(Acceleration,Cylinders,Displacement, ... Horsepower,Model_Year,Weight,Origin,MPG);
병원	예측 변수 개수: 5 관측값 개수: 100 응답 변수: `Diastolic`	시뮬레이션된 병원 데이터. 환자의 확장기 혈압을 예측합니다.
병원	`patients` 데이터 세트의 변수에서 테이블을 만듭니다. load patients hospitaltable = table(Gender,Age,Weight,Smoker,Systolic, ... Diastolic);

추가 예제 데이터 세트는 Statistics and Machine Learning Toolbox 예제 데이터 세트 항목과 MATLAB 예제 데이터 세트 항목을 참조하십시오.

검증 방식 선택하기

피팅된 모델의 예측 정확도를 검토하는 검증 방법을 선택합니다. 검증을 통해 새 데이터에 대한 모델 성능을 추정하여 최상의 모델을 선택할 수 있습니다. 검증은 과적합을 방지합니다. 너무 유연하고 과적합이 발생하는 모델은 검증 정확도가 떨어집니다. 모델을 훈련하기 전에 검증 방식을 선택하면 같은 검증 방식을 사용하여 세션의 모든 모델을 비교할 수 있습니다.

팁

디폴트 검증 방식을 시도하고 세션 시작을 클릭하여 계속합니다. 디폴트 옵션은 과적합을 방지하는 5겹 교차 검증입니다.

대규모 데이터 세트가 있고 훈련 모델에서 교차 검증을 사용하는 데 너무 오래 걸리는 경우 데이터를 다시 가져와서 더 빠른 홀드아웃 검증을 대신 시도하십시오.

예약된 데이터가 없다고 가정합니다(디폴트 설정이 그러함).

교차 검증: 데이터 세트를 분할하는 겹(또는 분할)의 개수를 선택합니다.
k겹을 선택하면 앱이 다음 작업을 수행합니다.
1. 데이터를 k개의 서로소 집합 또는 겹으로 분할합니다.
2. 각 검증 겹에 대해 다음을 수행합니다.
  1. 훈련 겹 관측값(검증 겹에 없는 관측값)을 사용하여 모델을 훈련시킵니다.
  2. 검증 겹 데이터를 사용하여 모델 성능을 평가합니다.
3. 모든 겹에 대한 평균 검증 오차를 계산합니다.
이 방법은 전체 데이터 세트를 사용하여 훈련된 최종 모델의 예측 정확도에 대한 양호한 추정치를 제공합니다. 이 방법은 여러 번의 피팅을 필요로 하지만 모든 데이터를 효율적으로 사용하므로, 작은 데이터 세트에 적합합니다.
홀드아웃 검증: 검증 세트로 사용할 데이터의 백분율을 선택합니다. 앱이 훈련 세트에서 모델을 훈련시키고 검증 세트로 성능을 평가합니다. 검증에 사용된 모델은 데이터의 일부만을 기반으로 하므로, 홀드아웃 검증은 대규모 데이터 세트에만 적합합니다. 최종 모델은 전체 데이터 세트를 사용하여 훈련됩니다.
재대입 검증: 과적합을 방지하지 않습니다. 앱이 훈련에 모든 데이터를 사용하고 동일한 데이터에 대한 오차율을 계산합니다. 별도의 검증 데이터가 없으면 새 데이터에 대해 비현실적인 모델 성능 추정치를 얻게 됩니다. 즉, 훈련 표본 정확도가 비현실적으로 높을 가능성이 있고 예측 정확도가 더 낮을 가능성이 있습니다.
훈련 데이터에 대한 과적합을 방지하려면 다른 검증 방식을 대신 선택하십시오.

참고

이 검증 방식은 회귀 학습기가 검증 메트릭을 계산하는 방식에만 영향을 미칩니다. 최종 모델은 테스트용으로 예약된 데이터를 제외하고 항상 전체 데이터 세트를 사용하여 훈련됩니다.

데이터를 선택한 후 훈련시키는 모든 모델은 이 대화 상자에서 선택한 것과 똑같은 검증 방식을 사용합니다. 같은 검증 방식을 사용하여 세션의 모든 모델을 비교할 수 있습니다.

검증 선택을 변경하고 새 모델을 훈련시키기 위해 데이터를 다시 선택할 수 있지만, 훈련된 모델을 잃게 됩니다. 앱에서는 데이터를 가져오면 새 세션이 시작된다는 경고를 표시합니다. 유지하려는 훈련된 모델을 모두 작업 공간에 저장한 다음, 데이터를 가져오십시오.

모델을 훈련시키는 다음 단계는 회귀 학습기 앱에서 회귀 모델 훈련시키기 항목을 참조하십시오.

(선택 사항) 테스트에 사용할 데이터 예약하기

데이터를 회귀 학습기로 가져올 때 테스트을 위해 일정 비율의 데이터를 예약하도록 지정할 수 있습니다. 새 세션 대화 상자의 테스트 섹션에서 체크박스를 클릭하여 테스트 데이터 세트를 확보합니다. 가져온 데이터 중에서 테스트 세트로 사용할 데이터의 비율을 지정합니다. 원한다면 앱 세션을 시작한 후 별도의 테스트 데이터 세트를 가져오도록 선택할 수도 있습니다.

테스트 세트를 사용해 훈련된 모델의 성능을 평가할 수 있습니다. 특히, 검증 메트릭이 새 데이터에 대한 모델 성능의 양호한 추정치를 제공하는지 여부를 확인할 수 있습니다. 자세한 내용은 테스트 세트에서 모델 성능 평가하기 항목을 참조하십시오. 예제는 Train Regression Model Using Hyperparameter Optimization in Regression Learner App 항목을 참조하십시오.

참고

이 앱은 모델 훈련을 위해 테스트 데이터를 사용하지 않습니다. 앱에서 내보낸 모델은 테스트을 위해 예약된 데이터를 제외하고 전체 훈련 및 검증 데이터에 대해 훈련됩니다.

앱 세션 저장 및 열기

회귀 학습기에서 현재 앱 세션을 저장하고 이전에 저장한 앱 세션을 열 수 있습니다.

현재 앱 세션을 저장하려면 학습 탭의 파일 섹션에서 저장을 클릭하십시오. 현재 세션을 처음 저장할 때 세션 파일 이름과 파일 위치를 지정해야 합니다. 세션 저장 옵션을 선택하면 현재 세션이 저장되고 세션을 다른 이름으로 저장 옵션을 선택하면 현재 세션이 새 파일에 저장됩니다. 간소화된 세션으로 저장 옵션은 현재 앱 세션의 간소화된 버전을 저장하므로 저장된 세션의 파일 크기가 더 작아집니다. 간소화된 세션으로 저장 옵션은 현재 세션의 모든 훈련된 모델에서 훈련 데이터를 영구적으로 삭제합니다.
저장한 앱 세션을 열려면 파일 섹션에서 열기를 클릭하십시오. "열려는 파일 선택" 대화 상자에서 열고 싶은 저장된 세션을 선택합니다.