선형회귀

선형회귀란?

선형회귀는 연속 응답 변수를 하나 이상의 예측 변수의 일차 함수로 설명하는 데 사용되는 통계 모델링 기법입니다. 이를 통해 복잡한 시스템의 거동을 이해하고 예측하거나 실험, 금융 및 생물학적 데이터를 분석할 수 있습니다.

선형회귀 기법은 선형 모델을 생성하는 데 사용됩니다. 이 모델은 종속 변수 \(y\)(응답 변수라고도 함)와 하나 이상의 독립 변수\(X_i\)(예측 변수라 함) 간의 관계를 설명합니다. 선형회귀 모델의 일반 수식은 다음과 같습니다.

\[Y = \beta_0 + \sum \ \beta_k X_k + \epsilon_i\]

여기서 \(\beta\)는 산출할 선형 파라미터의 추정값을 나타내고 \(\epsilon\)은 오차항을 나타냅니다.

선형회귀의 유형

단순 선형회귀 (단 하나의 예측 변수만 사용하는 모델): 일반 수식은 다음과 같습니다.

\[Y = \beta_0 + \beta_1 X+ \epsilon\]

선형회귀선, 응답 변수 값(주별 교통 사고 사망 건수) 및 예측 변수 값(주별 인구)을 보여주는 플롯.

특정 주의 인구(예측 변수, \(X\) 대비 교통 사고 사망 건수(응답 변수, \(Y\)를 예측하는 방법을 보여주는 단순 선형회귀의 예. (mldivide 연산자를 사용한 단순 선형회귀의 계수 추정 방법에 대한 MATLAB® 코드 예제 보기.)

다중 선형회귀 (여러 예측 변수를 사용하는 모델): 이 회귀에서는 여러 개의 \(X_i\)를 사용해 응답 변수 \(Y\)를 예측합니다. 이 수식의 예는 다음과 같습니다.

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2+ \epsilon\]

다중 선형회귀, 응답 변수 값(MPG) 및 예측 변수 값(중량 및 마력)을 보여주는 플롯.

중량 및 마력(예측 변수, Xj)을 토대로 다양한 자동차(응답 변수, \(Y\))의 갤런당 마일(MPG) 주행 거리를 예측하는 다중 선형 회귀의 예. (regress 함수를 사용한 다중 선형회귀 관계의 유의성 판별 방법에 대한 MATLAB 코드 예제 보기.)

다변량 선형회귀 (여러 개의 응답 변수에 대한 모델): 이 회귀는 동일한 데이터 \(X\)에서 파생되는 여러 개의 \(Y_i\) 변수가 있습니다. 이들은 다른 공식으로 표현됩니다. 2개의 방정식을 갖는 이 연립방정식의 예는 다음과 같습니다.

\[Y_1 = \beta_{01} + \beta_{11} X_1 + \epsilon_1\]

\[Y_2 = \beta_{02} + \beta_{1 2}X_1 + \epsilon_2\]

다변량 선형회귀, 응답 변수 값(9개 지역의 독감 추정치) 및 예측 변수 값(연중 해당 주간)을 보여주는 플롯.

연중 해당 주간(예측 변수, \(X\))을 기준으로 9개 지역(응답 변수, \(Y_i\))의 독감 추정치를 예측하는 방법을 보여주는 다변량 선형회귀의 예. (mvregress 함수를 사용한 다변량 선형회귀의 추정 계수 파악 방법에 대한 MATLAB 코드 예제 보기.)

다변량 다중 선형회귀 (여러 응답 변수에 대해 여러 예측 변수를 사용하는 모델): 이 회귀에서는 여러 개의 \(X_i\)를 사용해 여러 개의 응답 변수 \(Y_i\)를 예측합니다. 일반화한 수식은 다음과 같습니다.

다변량 다중 선형회귀를 사용해 여러 예측 변수 Xi로부터 여러 응답 변수 Yi를 계산하는 수식.

축간거리, 전비 중량 및 연료 유형(각각 예측 변수 \(X_1\), \(X_2\) 및 \(X_3\))의 3개 변수로부터 도심 및 고속도로 MPG(응답 변수 \(Y_1\) 및 \(Y_2\))를 계산하는 다변량 다중선형 회귀의 예. (mvregress 함수를 사용한 계수 추정 방법에 대한 MATLAB 코드 예제 보기.)

선형회귀의 응용 사례

선형회귀는 다음 응용 사례에서 매우 유용하게 사용할 수 있습니다.

  • 예측 또는 전망: 회귀 모델을 사용해 특정 데이터셋에 대한 예측 모델을 구축할 수 있습니다. 이 모델에서 회귀를 사용하여 예측 변수만 알려진 경우에도 응답 변수를 예측할 수 있습니다.
  • 회귀 관계의 강도: 회귀 모델을 사용해 특정 변수와 특정 예측 변수 사이에 관계가 있는지, 이 관계의 강도가 어느 정도인지 파악할 수 있습니다.

MATLAB을 사용한 선형회귀

엔지니어들은 일반적으로 MATLAB을 사용해 단순 선형회귀 모델을 만듭니다. 다중 및 다변량 선형회귀의 경우, MATLAB의 Statistics and Machine Learning Toolbox™를 사용할 수 있습니다. 이를 통해 단계적이고 강인한 다변량 회귀로 다음과 같은 작업을 수행할 수 있습니다.

  • 예측 생성
  • 선형 모델의 피팅 비교
  • 잔차 플로팅
  • 적합도 평가
  • 이상값 검출

데이터를 곡선과 곡면에 피팅하는 선형 모델을 생성하려면 Curve Fitting Toolbox™를 참조하십시오.


참조: 시계열 회귀 분석