정규분포

개요

정규분포(가우스 분포라고도 함)는 2-모수 곡선족입니다. 모델링에 정규분포를 사용해야 하는 일반적인 이유는 중심 극한 정리 때문입니다. 이 정리에서는 대략적으로 표본 크기가 무한대로 이동함에 따라 유한한 평균과 분산을 갖는 모든 분포에서 추출된 독립된 표본의 합이 정규분포로 수렴된다고 규정합니다.

Statistics and Machine Learning Toolbox™에서는 다음과 같이 정규분포를 사용하는 여러 방법을 제공합니다.

확률 분포를 표본 데이터에 피팅하거나(fitdist) 모수 값을 지정하여(makedist) 확률 분포 객체 NormalDistribution을 생성합니다. 그런 다음 객체 함수를 사용하여 분포를 실행하고, 난수를 생성하는 등의 작업을 수행합니다.
분포 피팅기 앱을 사용하여 대화형 방식으로 정규분포를 사용합니다. 앱에서 객체를 내보내고 객체 함수를 사용할 수 있습니다.
지정된 분포 모수를 이용해 분포 전용 함수(normcdf, normpdf, norminv, normlike, normstat, normfit, normrnd)를 사용합니다. 분포 전용 함수는 여러 정규분포의 모수를 받을 수 있습니다.
일반 분포 함수(cdf, icdf, pdf, random)를 지정된 분포 이름('Normal') 및 모수와 함께 사용합니다.

모수

정규분포는 다음과 같은 모수를 사용합니다.

모수	설명	지원
`mu` (μ)	평균	$- \infty < μ < \infty$
`sigma` (σ)	표준편차	$σ \geq 0$

표준 정규분포는 평균이 0이고 단위 표준편차를 가집니다. z가 표준 정규분포이면 σz + µ도 평균 µ 및 표준편차 σ를 갖는 정규분포입니다. 반대로, x가 평균 µ 및 표준편차 σ를 갖는 정규분포이면 z = (x – µ)/σ는 표준 정규분포입니다.

모수 추정

최대가능도 추정값(MLE)은 가능도 함수를 최대화하는 모수 추정값입니다. 정규분포에 대한 μ와 σ²의 최대가능도 추정량은 각각 다음과 같습니다.

$\bar{x} = \sum_{i = 1}^{n} \frac{x_{i}}{n}$

및

$s_{MLE}^{2} = \frac{1}{n} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} .$

$\bar{x}$ 는 표본 x₁, x₂, …, x_n에 대한 표본평균입니다. 표본평균은 모수 μ의 무편향 추정량입니다. 하지만 s²_MLE는 모수 σ²의 편향 추정량입니다. 즉, 기대값이 모수와 같지 않습니다.

최소 분산 무편향 추정량(MVUE)은 정규분포의 모수를 추정하는 데 일반적으로 사용됩니다. MVUE는 모수의 모든 무편향 추정량에 대한 최소 분산을 갖는 추정량입니다. 정규분포에 대한 모수 μ와 σ²의 MVUE는 각각 표본평균 x̄와 표본분산 s²입니다.

$s^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2}$

정규분포를 데이터에 피팅하고 모수 추정값을 구하려면 normfit, fitdist 또는 mle를 사용하십시오.

중도절단되지 않은 데이터에 대해 normfit 및 fitdist는 무편향 추정값을 구하고, mle는 최대가능도 추정값을 구합니다.
중도절단된 데이터에 대해 normfit, fitdist, mle는 최대가능도 추정값을 구합니다.

모수 추정값을 반환하는 normfit 및 mle와 달리, fitdist는 피팅된 확률 분포 객체 NormalDistribution을 반환합니다. 객체 속성 mu와 sigma는 모수 추정값을 저장합니다.

예제는 정규분포 객체 피팅하기 항목을 참조하십시오.

확률 밀도 함수

정규 확률 밀도 함수(pdf)는 다음과 같습니다.

$y = f (x | μ, σ) = \frac{1}{σ \sqrt{2 π}} e^{\frac{- {(x - μ)}^{2}}{2 σ^{2}}}, for x \in ℝ .$

가능도 함수는 모수의 함수로 표시되는 pdf입니다. 최대가능도 추정값(MLE)은 x의 고정 값에 대해 가능도 함수를 최대화하는 모수 추정값입니다.

예제는 정규분포 pdf를 계산하고 플로팅하기 항목을 참조하십시오.

누적 분포 함수

정규 누적 분포 함수(cdf)는 다음과 같습니다.

$p = F (x | μ, σ) = \frac{1}{σ \sqrt{2 π}} \int_{- \infty}^{x} e^{\frac{- {(t - μ)}^{2}}{2 σ^{2}}} d t, for x \in ℝ .$

p는 모수 μ 및 σ를 갖는 정규분포에서 하나의 관측값이 구간 (-∞,x]에 속할 확률입니다.

표준 정규 누적 분포 함수 Φ(x)는 기능적으로 오차 함수 erf와 관련됩니다.

$Φ (x) = \frac{1}{2} (1 - erf (- \frac{x}{\sqrt{2}}))$

여기서

$erf (x) = \frac{2}{\sqrt{π}} \int_{0}^{x} e {}^{- t^{2}}d t = 2 Φ (\sqrt{2} x) - 1.$

예제는 표준 정규분포 cdf 플로팅하기 항목을 참조하십시오.

예제

정규분포 객체 피팅하기

라이브 스크립트 열기

표본 데이터를 불러오고 학생들의 시험 성적 데이터의 첫 번째 열을 포함하는 벡터를 만듭니다.

load examgrades
x = grades(:,1);

이를 데이터에 피팅하여 정규분포 객체를 생성합니다.

pd = fitdist(x,'Normal')

pd = 
  NormalDistribution

  Normal distribution
       mu = 75.0083   [73.4321, 76.5846]
    sigma =  8.7202   [7.7391, 9.98843]

모수 추정값 다음에 있는 구간은 분포 모수에 대한 95% 신뢰구간입니다.

모수 추정하기

라이브 스크립트 열기

normfit 함수를 사용하여 정규분포 모수(평균 및 표준편차)를 추정합니다.

표본 데이터를 불러오고 학생들의 시험 성적 데이터의 첫 번째 열을 포함하는 벡터를 만듭니다.

load examgrades
x = grades(:,1);

모수 추정값과 95% 신뢰구간을 구합니다.

[mu,s,muci,sci] = normfit(x)

mu = 75.0083

s = 8.7202

muci = 2×1

   73.4321
   76.5846

sci = 2×1

    7.7391
    9.9884

normfit 함수는 $μ$ 에 대한 최소 분산 무편향 추정량(MVUE), $σ^{2}$ 에 대한 MVUE의 제곱근, $μ$ 및 $σ$ 에 대한 95% 신뢰구간을 반환합니다.

s의 제곱은 분산의 MVUE입니다.

s^2

ans = 76.0419

정규분포 pdf를 계산하고 플로팅하기

라이브 스크립트 열기

모수 $μ$ 가 0이고 $σ$ 가 1인 표준 정규분포에 대한 pdf를 계산합니다.

x = [-3:.1:3];
y = normpdf(x,0,1);

pdf를 플로팅합니다.

plot(x,y)

Figure contains an axes object. The axes object contains an object of type line.

표준 정규분포 cdf 플로팅하기

라이브 스크립트 열기

표준 정규분포 객체를 생성합니다.

pd = makedist('Normal')

pd = 
  NormalDistribution

  Normal distribution
       mu = 0
    sigma = 1

x 값을 지정하고 cdf를 계산합니다.

x = -3:.1:3;
p = cdf(pd,x);

표준 정규분포의 cdf를 플로팅합니다.

plot(x,p)

Figure contains an axes object. The axes object contains an object of type line.

감마 분포 pdf와 정규분포 pdf 비교하기

라이브 스크립트 열기

감마 분포는 형태 모수 $a$ 와 스케일 모수 $b$ 를 갖습니다. $a$ 의 크기가 큰 경우, 감마 분포는 평균이 $μ = ab$ 이고 분산이 $σ^{2} = a b^{2}$ 인 정규분포에 가깝습니다.

모수 a = 100 및 b = 5를 갖는 감마 분포의 pdf를 계산합니다.

a = 100;
b = 5;
x = 250:750;
y_gam = gampdf(x,a,b);

비교를 위해, 감마가 근사하는 정규분포의 평균, 표준편차 및 pdf를 계산합니다.

mu = a*b

mu = 500

sigma = sqrt(a*b^2)

sigma = 50

y_norm = normpdf(x,mu,sigma);

감마 분포와 정규분포의 pdf를 동일한 Figure에 플로팅합니다.

plot(x,y_gam,'-',x,y_norm,'-.')
title('Gamma and Normal pdfs')
xlabel('Observation')
ylabel('Probability Density')
legend('Gamma Distribution','Normal Distribution')

Figure contains an axes object. The axes object with title Gamma and Normal pdfs, xlabel Observation, ylabel Probability Density contains 2 objects of type line. These objects represent Gamma Distribution, Normal Distribution.

정규분포의 pdf는 감마 분포의 pdf를 근사합니다.

정규분포와 로그정규분포 사이의 관계

라이브 스크립트 열기

X가 모수 µ 및 σ를 갖는 로그정규분포를 따르면 log(X)는 평균 µ 및 표준편차 σ를 갖는 정규분포를 따릅니다. 분포 객체를 사용하여 정규분포와 로그정규분포 사이의 관계를 조사합니다.

모수 값을 지정하여 로그정규분포 객체를 만듭니다.

pd = makedist('Lognormal','mu',5,'sigma',2)

pd = 
  LognormalDistribution

  Lognormal distribution
       mu = 5
    sigma = 2

로그정규분포의 평균을 계산합니다.

mean(pd)

ans = 1.0966e+03

로그정규분포의 평균은 mu 모수와 동일하지 않습니다. 로그 값의 평균은 mu와 동일합니다. 난수를 생성하여 이 관계를 확인합니다.

로그정규분포에서 난수를 생성하고 그 로그 값을 계산합니다.

rng('default');  % For reproducibility
x = random(pd,10000,1);
logx = log(x);

로그 값의 평균을 계산합니다.

m = mean(logx)

m = 5.0033

x가 로그정규분포를 갖기 때문에 x의 로그의 평균은 x의 mu 모수에 가깝습니다.

정규분포가 피팅된 logx의 히스토그램을 생성합니다.

histfit(logx)

Figure contains an axes object. The axes object contains 2 objects of type bar, line.

이 플롯을 통해 x의 로그 값이 정규분포된 것을 알 수 있습니다.

histfit은 fitdist를 사용하여 분포를 데이터에 피팅합니다. 피팅에 사용되는 모수를 가져오려면 fitdist를 사용하십시오.

pd_normal = fitdist(logx,'Normal')

pd_normal = 
  NormalDistribution

  Normal distribution
       mu = 5.00332   [4.96445, 5.04219]
    sigma = 1.98296   [1.95585, 2.01083]

추정된 정규분포 모수는 로그정규분포 모수 5와 2에 가깝습니다.

스튜던트 `t` 분포 pdf와 정규분포 pdf 비교하기

라이브 스크립트 열기

스튜던트 t 분포는 단일 모수 ν(자유도)에 종속적인 곡선족입니다. 자유도 ν가 무한대에 가까워지면 t 분포는 표준 정규분포에 가까워집니다.

모수 nu = 5를 갖는 스튜던트 t 분포의 pdf와 모수 nu = 15를 갖는 스튜던트 t 분포의 pdf를 계산합니다.

x = [-5:0.1:5];
y1 = tpdf(x,5);
y2 = tpdf(x,15);

표준 정규분포의 pdf를 계산합니다.

z = normpdf(x,0,1);

스튜던트 t pdf와 표준 정규 pdf를 동일한 Figure에 플로팅합니다.

plot(x,y1,'-.',x,y2,'--',x,z,'-')
legend('Student''s t Distribution with \nu=5', ...
    'Student''s t Distribution with \nu=15', ...
    'Standard Normal Distribution','Location','best')
xlabel('Observation')
ylabel('Probability Density')
title('Student''s t and Standard Normal pdfs')

$Figure contains an axes object. The axes object with title Student's t and Standard Normal pdfs, xlabel Observation, ylabel Probability Density contains 3 objects of type line. These objects represent Student's t Distribution with \nu=5, Student's t Distribution with \nu=15, Standard Normal Distribution.$

표준 정규 pdf의 꼬리가 스튜던트 t pdf의 꼬리보다 짧습니다.

참고 문헌

[1] Abramowitz, M., and I. A. Stegun. Handbook of Mathematical Functions. New York: Dover, 1964.

[2] Evans, M., N. Hastings, and B. Peacock. Statistical Distributions. 2nd ed. Hoboken, NJ: John Wiley & Sons, Inc., 1993.

[3] Lawless, J. F. Statistical Models and Methods for Lifetime Data. Hoboken, NJ: Wiley-Interscience, 1982.

[4] Marsaglia, G., and W. W. Tsang. “A Fast, Easily Implemented Method for Sampling from Decreasing or Symmetric Unimodal Density Functions.” SIAM Journal on Scientific and Statistical Computing. Vol. 5, Number 2, 1984, pp. 349–359.

[5] Meeker, W. Q., and L. A. Escobar. Statistical Methods for Reliability Data. Hoboken, NJ: John Wiley & Sons, Inc., 1998.

참고 항목

정규분포

개요

모수

모수 추정

확률 밀도 함수

누적 분포 함수

예제

정규분포 객체 피팅하기

모수 추정하기

정규분포 pdf를 계산하고 플로팅하기

표준 정규분포 cdf 플로팅하기

감마 분포 pdf와 정규분포 pdf 비교하기

정규분포와 로그정규분포 사이의 관계

스튜던트 `t` 분포 pdf와 정규분포 pdf 비교하기

관련 분포

참고 문헌

참고 항목

관련 항목

정규분포

개요

모수

모수 추정

확률 밀도 함수

누적 분포 함수

예제

정규분포 객체 피팅하기

모수 추정하기

정규분포 pdf를 계산하고 플로팅하기

표준 정규분포 cdf 플로팅하기

감마 분포 pdf와 정규분포 pdf 비교하기

정규분포와 로그정규분포 사이의 관계

스튜던트 t 분포 pdf와 정규분포 pdf 비교하기

관련 분포

참고 문헌

참고 항목

관련 항목

스튜던트 `t` 분포 pdf와 정규분포 pdf 비교하기