선형 회귀 모델이란?

선형 회귀 모델은 종속 변수 y와 하나 이상의 독립 변수 X 간의 관계를 설명합니다. 종속 변수는 응답 변수라고도 합니다. 독립 변수는 설명 변수 또는 예측 변수라고도 합니다. 연속 예측 변수는 공변량이라고도 하며 범주형 예측 변수는 인자라고도 합니다. 예측 변수의 관측값으로 구성된 행렬 X는 일반적으로 설계 행렬이라고 합니다.

다중 선형 회귀 모델은 다음과 같습니다.

$y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + \dots + β_{p} X_{i p} + ε_{i}, i = 1, \dots, n,$

여기서

n은 관측값 개수입니다.
y_i는 i번째 응답 변수입니다.
β_k는 k번째 계수이며, 여기서 β₀은 모델의 상수항입니다. 경우에 따라 설계 행렬은 상수항에 대한 정보를 포함할 수 있습니다. 한편, fitlm 또는 stepwiselm은 기본적으로 모델에 상수항을 포함시키므로 설계 행렬 X에 1로 구성된 열을 입력하면 안 됩니다.
X_ij는 j번째 예측 변수(j = 1, ..., p)의 i번째 관측값입니다.
ε_i는 i번째 잡음 항, 즉 랜덤 오차입니다.

모델이 하나의 예측 변수(p = 1)만 포함하고 있는 경우 이러한 모델을 단순 선형 회귀 모델이라고 합니다.

일반적으로 선형 회귀 모델은 다음 형식의 모델일 수 있습니다.

$y_{i} = β_{0} + \sum_{k = 1}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) + ε_{i}, i = 1, \dots, n,$

여기서 f (.)는 독립 변수 X_ij의 스칼라 값 함수입니다. 함수 f (X)는 비선형 함수 또는 다항식을 포함하는 임의 형식일 수 있습니다. 선형 회귀 모델의 선형성은 계수 β_k의 선형성을 가리킵니다. 즉, 응답 변수 y는 계수 β_k의 선형 함수입니다.

선형 모델의 몇 가지 예는 다음과 같습니다.

$\begin{array}{l} y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + β_{3} X_{i 3} + ε_{i} \\ y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + β_{3} X_{i 1}^{3} + β_{4} X_{i 2}^{2} + ε_{i} \\ y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + β_{3} X_{i 1} X_{i 2} + β_{4} \log X_{i 3} + ε_{i} \end{array}$

하지만 다음 경우는 미지수 계수 β_k에서 선형이 아니므로 선형 모델이 아닙니다.

$\begin{array}{l} \log y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + ε_{i} \\ y_{i} = β_{0} + β_{1} X_{i 1} + \frac{1}{β_{2} X_{i 2}} + e^{β_{3} X_{i 1} X_{i 2}} + ε_{i} \end{array}$

선형 회귀 모델에 대한 일반적인 가정은 다음과 같습니다.

잡음 항 ε_i에는 상관관계가 없습니다.
잡음 항 ε_i는 평균이 0이고 일정한 분산 σ²을 갖는 독립적이고 동일한 정규분포를 가집니다. 따라서 다음과 같습니다.
$\begin{array}{l} E (y_{i}) = E (\sum_{k = 0}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) + ε_{i}) \\ = \sum_{k = 0}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) + E (ε_{i}) \\ = \sum_{k = 0}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) \end{array}$
및
$V (y_{i}) = V (\sum_{k = 0}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) + ε_{i}) = V (ε_{i}) = σ^{2}$
그러므로 y_i의 분산은 모든 수준의 X_ij에서 동일합니다.
응답 변수 y_i는 상관관계가 없습니다.

피팅된 선형 함수는 다음과 같습니다.

${\hat{y}}_{i} = \sum_{k = 0}^{K} b_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}), i = 1, \dots, n,$

여기서 ${\hat{y}}_{i}$ 는 추정된 응답 변수이고 b_k는 피팅된 계수입니다. 예측 변수 벡터 $\hat{y}$ 와 실제 응답 변수 벡터 $y$ 간의 평균 제곱 차이를 최소화하기 위해 계수가 추정됩니다(즉, $\hat{y} - y$ ). 이 방법을 최소제곱 방법이라고 합니다. 잡음 항에 대한 가정하에, 이러한 계수는 또한 예측 변수 벡터의 가능도를 최대화합니다.

y = β₁X₁ + β₂X₂ + ... + β_pX_p 형식의 선형 회귀 모델에서, 계수 β_k는 다른 모든 변수가 일정하게 유지된다는 가정하에 예측 변수 X_j의 한 단위 변화가 응답 변수 E(y)의 평균에 미치는 영향을 표현합니다. 계수의 부호는 영향의 방향을 나타냅니다. 예를 들어 선형 모델이 E(y) = 1.8 – 2.35X₁ + X₂인 경우 X₂가 일정하게 유지된다고 가정할 때 –2.35는 X₁의 한 단위 증가에 따라 평균적으로 응답 변수의 2.35 단위 감소를 나타냅니다. 모델이 E(y) = 1.1 + 1.5X₁² + X₂인 경우 기타 모든 요소가 일정하게 유지된다고 가정할 때 X₁²의 계수는 X₁²의 한 단위 증가에 따라 Y의 평균의 1.5 단위 증가를 나타냅니다. 하지만 E(y) = 1.1 + 2.1X₁ + 1.5X₁²의 경우는 X₁²가 변경되면 X₁을 일정하게 유지할 수 없기 때문에(그 반대의 경우도 마찬가지임) 계수를 유사하게 해석하기 어렵습니다.

참고 문헌

[1] Neter, J., M. H. Kutner, C. J. Nachtsheim, and W. Wasserman. Applied Linear Statistical Models. IRWIN, The McGraw-Hill Companies, Inc., 1996.

[2] Seber, G. A. F. Linear Regression Analysis. Wiley Series in Probability and Mathematical Statistics. John Wiley and Sons, Inc., 1977.

참고 항목

LinearModel | fitlm | stepwiselm

도움말 항목

교육 관련 자료

Regression Basics (MathWorks Teaching Resources)