회귀 학습기 앱을 사용한 특징 선택과 특징 변환
응답 플롯에서 특징 조사하기
회귀 학습기에서 응답을 예측하는 데 도움이 되는 예측 변수를 식별해 보기 위해 응답 플롯을 사용합니다. 각기 다른 예측 변수와 응답 간의 관계를 시각화하려면 X축 아래에 있는 X 목록에서 다른 변수를 선택합니다.
회귀 모델을 훈련시키기 전에는 응답 플롯에 훈련 데이터가 표시됩니다. 회귀 모델을 훈련시키면 응답 플롯에 모델 예측도 표시됩니다.
어떤 변수가 응답과 가장 명확하게 연관되어 있는지 살펴봅니다. carbig
데이터 세트를 플로팅하면 예측 변수 Horsepower
는 응답과의 뚜렷한 음의 연관성을 보여줍니다.
응답과 연관성이 없어 보이는 특징을 찾고 사용한 예측 변수 세트에서 그러한 특징을 제거하기 위해 특징 선택을 사용합니다. 포함할 특징 선택하기 항목을 참조하십시오.
앱에서 만든 응답 플롯을 Figure로 내보낼 수 있습니다. Export Plots in Regression Learner App 항목을 참조하십시오.
포함할 특징 선택하기
회귀 학습기에서, 모델에 포함할 다양한 특징(또는 예측 변수)을 지정할 수 있습니다. 예측 검정력이 낮은 특징을 제거하여 모델을 향상시킬 수 있는지 확인합니다. 데이터 수집이 많은 비용이 들거나 어려운 경우, 더 적은 예측 변수로 만족스러운 성능을 발휘하는 모델을 선호할 수 있습니다.
다양한 특징 순위 지정 알고리즘을 사용하여 어떤 중요한 예측 변수를 포함할지 결정할 수 있습니다. 특징 순위 지정 알고리즘을 선택한 후 앱에는 정렬된 특징 중요도 점수의 플롯이 표시되며, 여기서 점수가 클수록(Inf
포함) 특징 중요도가 높음을 나타냅니다. 또한 순위가 지정된 특징과 그 점수도 테이블에 표시됩니다.
회귀 학습기에서 특징 순위 지정 알고리즘을 사용하려면 학습 탭의 옵션 섹션에서 특징 선택을 클릭합니다. 디폴트 특징 선택 탭이 열리면, 여기서 특징 순위 지정 알고리즘을 선택할 수 있습니다.
특징 순위 지정 알고리즘 | 지원되는 데이터형 | 설명 |
---|---|---|
MRMR | 범주형 특징 및 연속 특징 | Minimum Redundancy Maximum Relevance (MRMR) Algorithm 항목을 참조하여 순차적으로 특징의 순위를 지정합니다. 자세한 내용은 |
F 검정 | 범주형 특징 및 연속 특징 | F-검정을 사용하여 각 예측 변수의 중요도를 개별적으로 검토한 다음 F-검정 통계량의 p-값을 사용하여 특징의 순위를 지정합니다. 각 F-검정은 '모집단 평균이 모두 같지는 않다'는 대립가설에 대해 '예측 변수 값별로 그룹화된 응답 변수 값은 평균이 동일한 모집단에서 추출되었다'는 가설을 검정합니다. 점수는 –log(p)에 대응합니다. 자세한 내용은 |
RReliefF | 모든 범주형 특징 또는 모든 연속 특징. ReliefF는 다음 중 하나에 해당하는 경우 지원되지 않습니다.
| 최근접이웃이 10개인 RReliefF 알고리즘을 사용하여 특징의 순위를 지정합니다. 이 알고리즘은 관측값 사이의 쌍별 거리를 사용하여 응답 변수를 예측하는 거리 기반 지도 모델의 특징 중요도를 추정하는 데 가장 적합합니다. 자세한 내용은 |
참고
앱은 실제 예측 변수 값 대신에 예측 변수 z-점수 값을 사용하여 특징 중요도 점수를 계산합니다(normalize
항목 참조).
순위가 가장 높은 특징을 선택하는 것과 개별 특징을 선택하는 것 중에서 하나를 선택합니다.
검증 메트릭에 편향을 방지하려면 순위가 가장 높은 특징 선택을 선택합니다. 예를 들어 교차 검증 방식을 사용하는 경우 앱은 모델 훈련 전에 각 훈련 겹에 대해 특징 선택을 수행합니다. 각 겹마다 서로 다른 예측 변수를 가장 높은 순위의 특징으로 선택할 수 있습니다.
모델 훈련에 특정 특징을 포함하려면 개별 특징 선택을 선택합니다. 교차 검증 방식을 사용하는 경우 앱은 모든 훈련 겹에 동일한 특징을 사용합니다.
특징을 선택하고 나면 저장 및 적용을 클릭합니다. 선택한 특징은 모델 창에 있는 모든 훈련 전 상태의 모델에 적용되며, 학습 탭의 모델 섹션에 있는 갤러리를 사용하여 만든 새로운 훈련 전 상태의 모델에 적용됩니다.
훈련 전 상태의 단일 모델에 대한 특징을 선택하려면 모델 요약을 열어 편집합니다. 모델 창에서 모델을 클릭한 다음 모델 요약 탭을 클릭합니다(필요한 경우). 요약 탭에는 편집 가능한 특징 선택 섹션이 포함되어 있습니다.
모델을 훈련시킨 후 모델 요약 탭의 특징 선택 섹션에는 전체 모델(즉, 훈련 데이터와 검증 데이터를 사용하여 훈련된 모델)을 훈련하는 데 사용되는 특징이 나열됩니다. 회귀 학습기가 특징 선택을 데이터에 적용하는 방법에 대해 자세히 알아보려면 훈련된 회귀 모델에 대한 코드를 생성하십시오. 자세한 내용은 Generate MATLAB Code to Train Model with New Data 항목을 참조하십시오.
특징 선택을 사용하는 예제는 Train Regression Trees Using Regression Learner App 항목을 참조하십시오.
회귀 학습기에서 PCA를 사용하여 특징 변환하기
예측 변수 공간의 차원을 줄이려면 PCA(주성분 분석)를 사용합니다. 차원을 축소하면 회귀 학습기에서 과적합을 방지하는 데 도움이 되는 회귀 모델을 만들 수 있습니다. PCA는 중복 차원을 제거하기 위해 예측 변수를 선형으로 변환하고 주성분이라고 하는 새로운 변수 세트를 생성합니다.
학습 탭의 옵션 섹션에서 PCA를 선택합니다.
디폴트 PCA 옵션 대화 상자에서 PCA 사용 체크박스를 선택한 다음 저장 및 적용을 클릭합니다.
모델 창에 있는 모든 훈련 전 상태의 모델과, 학습 탭의 모델 섹션에 있는 갤러리를 사용하여 만든 새로운 훈련 전 상태의 모델에 변경 내용이 적용됩니다.
다음에 모두 훈련 버튼을 사용하여 모델을 훈련시킬 때, 모델을 훈련시키기 전에
pca
함수는 선택된 특징을 변환합니다.기본적으로 PCA는 분산의 95%를 설명하는 성분만 유지합니다. 디폴트 PCA 옵션 대화 상자에서 설명분산 값을 선택하여 설명할 분산의 백분율을 변경할 수 있습니다. 값이 높을수록 과적합이 발생할 위험이 있고, 값이 낮을수록 유용한 차원이 제거될 위험이 있습니다.
PCA 성분 개수를 제한하려면
성분 감소 기준
목록에서 성분 개수 지정을 선택합니다. 숫자형 성분 개수 값을 선택합니다. 성분 개수는 숫자형 예측 변수 개수보다 크면 안 됩니다. categorical형 예측 변수에는 PCA가 적용되지 않았습니다.
요약 탭의 PCA 섹션에서 훈련된 모델에 대한 PCA 옵션을 확인할 수 있습니다. 모델 창에서, 훈련된 모델을 클릭한 다음 모델 요약 탭(필요한 경우)을 클릭합니다. 예를 들면 다음과 같습니다.
PCA is keeping enough components to explain 95% variance. After training, 2 components were kept. Explained variance per component (in order): 92.5%, 5.3%, 1.7%, 0.5%
회귀 학습기가 PCA를 데이터에 적용하는 방법에 대해 자세히 알아보려면 훈련된 회귀 모델에 대한 코드를 생성하십시오. PCA에 대한 자세한 내용은 pca
함수를 참조하십시오.