실험 데이터에서 수학적 관계를 설명하고 예측하기

Linear regression은 연속형 응답 변수를 하나 이상의 예측 변수의 함수로 설명하는 데 사용되는 통계 모델링 기법입니다. 복잡한 시스템의 동작을 이해하고 예측하거나 실험, 금융 및 생물학적 데이터를 분석할 수 있습니다.

Linear regression 기법은 선형 모델을 생성하는 데 사용됩니다. 이 모델은 종속 변수 \(y\)(응답 변수라고도 함)와 하나 이상의 독립 변수 간의 관계를 독립 변수 \(X_i\)(예측 변수라 함)의 함수로 설명합니다. Linear regression 모델의 일반 수식은 다음과 같습니다.

\[Y = \beta_0 + \sum \ \beta_i X_i + \epsilon_i\]

여기서 \(\beta\)는 산출할 선형 파라미터의 추정값을 나타내고 \(\epsilon\)은 오차항을 나타냅니다.

Linear regression의 유형

단순 linear regression: 단 하나의 예측 변수만 사용하는 모델 일반 수식은 다음과 같습니다.

\[Y = \beta_0 + \beta_i X+ \epsilon_i\]

특정 주의 인구(예측 변수, \(X\) 대비 교통 사고 사망 건수(응답 변수, \(Y\)를 예측하는 방법을 보여주는 단순 linear regression의 예 (MATLAB® 코드 예제 및 mldivide 연산자를 사용하여 단순 linear regression의 계수를 추정하는 방법을 참조하십시오.)

다중 linear regression: 여러 예측 변수를 사용하는 모델 이 회귀에서는 여러 개의 \(X_i\)를 사용하여 응답 변수 \(Y\)를 예측합니다. 이 수식의 예는 다음과 같습니다.

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2+ \epsilon\]

중량 및 마력(예측 변수, Xj)을 토대로 다양한 자동차(응답 변수, \(Y\))의 갤런당 마일(MPG) 주행 거리를 예측하는 다중 linear regression의 예 (regress 함수를 사용하여 다중 linear regression 관계의 유의성을 판단하는 MATLAB 코드 예제를 참조하십시오.)

다변량 linear regression: 여러 개의 응답 변수에 대한 모델 이 회귀는 동일한 데이터 \(X\)에서 파생되는 여러 개의 \(Y_i\) 변수가 있습니다. 이들은 서로 다른 공식을 사용해 표현합니다. 2개의 방정식을 갖는 이런 연립방정식의 예는 다음과 같습니다.

\[Y_1 = \beta_{01} + \beta_{11} X_1 + \epsilon_1\]

\[Y_2 = \beta_{02} + \beta_{1 2}X_1 + \epsilon_2\]

연중 해당 주간(예측 변수, \(X\))을 기준으로 9개 지역(응답 변수, \(Y_i\))의 독감 추정치를 예측하는 방법을 보여주는 다변량 linear regression의 예 (MATLAB 코드 예제 및 mvregress 함수를 사용하여 다변량 linear regression의 추정 계수를 파악하는 방법을 참조하십시오.)

다변량 다중 linear regression: 여러 응답 변수에 대해 여러 예측 변수를 사용하는 모델 이 회귀에서는 여러 개의 \(X_i\)를 사용하여 여러 개의 응답 변수 \(Y_i\)를 예측합니다. 일반화한 수식은 다음과 같습니다.

축간거리, 전비 중량 및 연료 유형(예측 변수, \(X_1\), \(X_2\), \(X_3\))의 3개 변수로부터 도심 및 고속도로 MPG(응답 변수 \(Y_1\) 및 \(Y_2\))를 계산하는 다변량 다중 linear regression의 예. (MATLAB 코드 예제 및 mvregress 함수를 사용하여 계수를 추정하는 방법을 참조하십시오.)

Linear regression 응용 분야

Linear regression은 다음 응용 분야에서 매우 유용하게 사용할 수 있습니다.

  • 예측 또는 전망 – 회귀 모델을 사용하여 특정 데이터셋에 대한 예측 모델 구축 이 모델에서 회귀를 사용하여 예측 변수만 파악된 경우에도 응답 변수를 예측할 수 있습니다.
  • 회귀 관계의 강도 – 회귀 모델을 사용하여 특정 변수와 특정 예측 변수 사이에 관계가 있는지, 그리고 해당 관계의 강도가 어떤지 파악할 수 있습니다.

MATLAB을 사용한 linear regression

엔지니어들은 흔히 MATLAB을 사용하여 단순 linear regression 모델을 만듭니다. 다중 및 다변량 linear regression의 경우, MATLAB의 Statistics and Machine Learning Toolbox™를 사용할 수 있습니다. 단계적이고 강인한 다변량 회귀를 사용하여 다음과 같은 작업이 가능합니다.

  • 예측 생성
  • 선형 모델의 피팅 비교
  • 잔차 플로팅
  • 적합도 평가
  • 이상값 검출

데이터를 곡선과 곡면에 피팅하는 선형 모델을 생성하려면 Curve Fitting Toolbox™를 참조하십시오.