이 페이지의 최신 내용은 아직 번역되지 않았습니다. 최신 내용은 영문으로 볼 수 있습니다.

정규분포

개요

정규분포(가우스 분포라고도 함)는 2-모수 곡선족입니다. 모델링에 정규분포를 사용해야 하는 일반적인 이유는 중심 극한 정리 때문입니다. 이 정리에서는 대략적으로 표본 크기가 무한대로 이동함에 따라 유한한 평균과 분산을 갖는 모든 분포에서 추출된 독립된 표본의 합이 정규분포로 수렴된다고 규정합니다.

Statistics and Machine Learning Toolbox™에서는 다음과 같이 정규분포를 사용하는 여러 방법을 제공합니다.

  • 확률 분포를 표본 데이터에 피팅하거나(fitdist) 모수 값을 지정하여(makedist) 확률 분포 객체 NormalDistribution을 생성합니다. 그런 다음 객체 함수를 사용하여 분포를 실행하고, 난수를 생성하는 등의 작업을 수행합니다.

  • 분포 피팅기 앱을 사용하여 대화형 방식으로 정규분포를 사용합니다. 앱에서 객체를 내보내고 객체 함수를 사용할 수 있습니다.

  • 지정된 분포 모수를 이용해 분포 전용 함수(normcdf, normpdf, norminv, normlike, normstat, normfit, normrnd)를 사용합니다. 분포 전용 함수는 여러 정규분포의 모수를 받을 수 있습니다.

  • 일반 분포 함수(cdf, icdf, pdf, random)를 지정된 분포 이름('Normal') 및 모수와 함께 사용합니다.

모수

정규분포는 다음과 같은 모수를 사용합니다.

모수설명지원
mu (μ)평균<μ<
sigma (σ)표준편차σ0

표준 정규분포는 평균이 0이고 단위 표준편차를 가집니다. z가 표준 정규분포이면 σz + µ도 평균 µ 및 표준편차 σ를 갖는 정규분포입니다. 반대로, x가 평균 µ 및 표준편차 σ를 갖는 정규분포이면 z = (x – µ)/σ는 표준 정규분포입니다.

모수 추정

최대가능도 추정값(MLE)은 가능도 함수를 최대화하는 모수 추정값입니다. 정규분포에 대한 μσ2의 최대가능도 추정량은 각각 다음과 같습니다.

x¯=i=1nxin

sMLE2=1ni=1n(xix¯)2.

x¯는 표본 x1, x2, …, xn에 대한 표본평균입니다. 표본평균은 모수 μ의 무편향 추정량입니다. 하지만 s2MLE는 모수 σ2의 편향 추정량입니다. 즉, 기대값이 모수와 같지 않습니다.

최소 분산 무편향 추정량(MVUE)은 정규분포의 모수를 추정하는 데 일반적으로 사용됩니다. MVUE는 모수의 모든 무편향 추정량에 대한 최소 분산을 갖는 추정량입니다. 정규분포에 대한 모수 μσ2의 MVUE는 각각 표본평균 와 표본분산 s2입니다.

s2=1n1i=1n(xix¯)2

정규분포를 데이터에 피팅하고 모수 추정값을 구하려면 normfit, fitdist 또는 mle를 사용하십시오.

  • 중도절단되지 않은 데이터에 대해 normfitfitdist는 무편향 추정값을 구하고, mle는 최대가능도 추정값을 구합니다.

  • 중도절단된 데이터에 대해 normfit, fitdist, mle는 최대가능도 추정값을 구합니다.

모수 추정값을 반환하는 normfitmle와 달리, fitdist는 피팅된 확률 분포 객체 NormalDistribution을 반환합니다. 객체 속성 musigma는 모수 추정값을 저장합니다.

예제는 정규분포 객체 피팅하기 항목을 참조하십시오.

확률 밀도 함수

정규 확률 밀도 함수(pdf)는 다음과 같습니다.

y=f(x|μ,σ)=1σ2πe(xμ)22σ2,forx.

가능도 함수는 모수의 함수로 표시되는 pdf입니다. 최대가능도 추정값(MLE)은 x의 고정 값에 대해 가능도 함수를 최대화하는 모수 추정값입니다.

예제는 정규분포 pdf를 계산하고 플로팅하기 항목을 참조하십시오.

누적 분포 함수

정규 누적 분포 함수(cdf)는 다음과 같습니다.

p=F(x|μ,σ)=1σ2πxe(tμ)22σ2dt,forx.

p는 모수 μσ를 갖는 정규분포에서 하나의 관측값이 구간 (-∞,x]에 속할 확률입니다.

표준 정규 누적 분포 함수 Φ(x)는 기능적으로 오차 함수 erf와 관련됩니다.

Φ(x)=12(1erf(x2))

여기서는 다음을 조건으로 합니다.

erf(x)=2π0xedt2t=2Φ(2x)1.

예제는 표준 정규분포 cdf 플로팅하기 항목을 참조하십시오.

예제

정규분포 객체 피팅하기

표본 데이터를 불러오고 학생들의 시험 성적 데이터의 첫 번째 열을 포함하는 벡터를 만듭니다.

load examgrades
x = grades(:,1);

이를 데이터에 피팅하여 정규분포 객체를 생성합니다.

pd = fitdist(x,'Normal')
pd = 
  NormalDistribution

  Normal distribution
       mu = 75.0083   [73.4321, 76.5846]
    sigma =  8.7202   [7.7391, 9.98843]

모수 추정값 다음에 있는 구간은 분포 모수에 대한 95% 신뢰구간입니다.

정규분포 pdf를 계산하고 플로팅하기

모수 μ가 0이고 σ가 1인 표준 정규분포에 대한 pdf를 계산합니다.

x = [-3:.1:3];
y = normpdf(x,0,1);

pdf를 플로팅합니다.

plot(x,y)

표준 정규분포 cdf 플로팅하기

표준 정규분포 객체를 생성합니다.

pd = makedist('Normal')
pd = 
  NormalDistribution

  Normal distribution
       mu = 0
    sigma = 1

x 값을 지정하고 cdf를 계산합니다.

x = -3:.1:3;
p = cdf(pd,x);

표준 정규분포의 cdf를 플로팅합니다.

plot(x,p)

감마 분포 pdf와 정규분포 pdf 비교하기

감마 분포는 형태 모수 a와 스케일 모수 b를 갖습니다. a의 크기가 큰 경우, 감마 분포는 평균이 μ=ab이고 분산이 σ2=ab2인 정규분포에 가깝습니다. 모수 A = 100B = 10을 갖는 감마 분포의 pdf를 계산합니다. 비교를 위해, 모수 mu = 1000sigma = 100을 갖는 정규분포의 pdf도 계산합니다.

x = gaminv((0.005:0.01:0.995),100,10);
y_gam = gampdf(x,100,10);
y_norm = normpdf(x,1000,100);

감마 분포와 정규분포의 pdf를 동일한 Figure에 플로팅합니다.

plot(x,y_gam,'-',x,y_norm,'-.')
title('Gamma and Normal pdfs')
legend('Gamma Distribution','Normal Distribution')

정규분포와 로그 정규분포 사이의 관계

X가 모수 µσ를 갖는 로그 정규분포를 따르면 log(X)는 평균 µ 및 표준편차 σ를 갖는 정규분포를 따릅니다. 분포 객체를 사용하여 정규분포와 로그 정규분포 사이의 관계를 조사합니다.

모수 값을 지정하여 로그 정규분포 객체를 만듭니다.

pd = makedist('Lognormal','mu',5,'sigma',2)
pd = 
  LognormalDistribution

  Lognormal distribution
       mu = 5
    sigma = 2

로그 정규분포의 평균을 계산합니다.

mean(pd)
ans = 1.0966e+03

로그 정규분포의 평균은 mu 모수와 동일하지 않습니다. 로그 값의 평균은 mu와 동일합니다. 난수를 생성하여 이 관계를 확인합니다.

로그 정규분포에서 난수를 생성하고 그 로그 값을 계산합니다.

rng('default');  % For reproducibility
x = random(pd,10000,1);
logx = log(x);

로그 값의 평균을 계산합니다.

m = mean(logx)
m = 5.0033

x가 로그 정규분포를 갖기 때문에 x의 로그의 평균은 xmu 모수에 가깝습니다.

정규분포가 피팅된 logx의 히스토그램을 생성합니다.

histfit(logx)

이 플롯을 통해 x의 로그 값이 정규분포된 것을 알 수 있습니다.

histfitfitdist를 사용하여 분포를 데이터에 피팅합니다. 피팅에 사용되는 모수를 가져오려면 fitdist를 사용하십시오.

pd_normal = fitdist(logx,'Normal')
pd_normal = 
  NormalDistribution

  Normal distribution
       mu = 5.00332   [4.96445, 5.04219]
    sigma = 1.98296   [1.95585, 2.01083]

추정된 정규분포 모수는 로그 정규분포 모수 5와 2에 가깝습니다.

스튜던트 t 분포 pdf와 정규분포 pdf 비교하기

스튜던트 t 분포는 단일 모수 ν(자유도)에 종속적인 곡선족입니다. 자유도 ν가 무한대에 가까워지면 t 분포는 표준 정규분포에 가까워집니다. 모수 nu = 5를 갖는 스튜던트 t 분포의 pdf와 모수 nu = 25를 갖는 스튜던트 t 분포의 pdf를 계산합니다. 표준 정규분포의 pdf를 계산합니다.

x = -5:0.1:5;
y1 = tpdf(x,5);
y2 = tpdf(x,15);
z = normpdf(x,0,1);

스튜던트 t pdf와 표준 정규 pdf를 동일한 Figure에 플로팅합니다. 표준 정규 pdf의 꼬리가 스튜던트 t pdf의 꼬리보다 짧습니다.

plot(x,y1,'-.',x,y2,'--',x,z,'-')
legend('Student''s t Distribution with \nu=5', ...
    'Student''s t Distribution with \nu=25', ...
    'Standard Normal Distribution','Location','best')
title('Student''s t and Standard Normal pdfs')

관련 분포

  • Binomial Distribution — 이항분포는 성공 확률 p로 n번 반복 시행의 총 성공 횟수를 모델링합니다. n이 커지면 이항분포는 µ = npσ2 = np(1–p)를 갖는 정규분포로 근사할 수 있습니다.

  • Birnbaum-Saunders Distributionx가 모수 β 및 γ를 갖는 번바움-손더스 분포를 가지면

    (xββx)γ

    위의 분포는 표준 정규분포를 갖습니다.

  • Chi-Square Distribution — 카이제곱 분포는 독립 표준 정규 확률 변수의 제곱합의 분포입니다. n개의 관측값 세트가 분산 σ2으로 정규분포되어 있고 s2이 표본분산이라면 (n–1)s22 은 자유도가 n–1인 카이제곱 분포를 갖습니다. normfit 함수는 이 관계를 사용하여 정규 모수 σ2의 추정값에 대한 신뢰구간을 계산합니다.

  • Extreme Value Distribution — 극값 분포는 정규분포와 같이 꼬리가 기하급수적으로 빠르게 감소하는 분포의 가장 작은 값이나 가장 큰 값을 모델링하는 데 적합합니다.

  • Gamma Distribution — 감마 분포는 형태 모수 a와 스케일 모수 b를 갖습니다. a의 크기가 큰 경우, 감마 분포는 평균이 μ = ab이고 분산이 σ2 = ab2인 정규분포에 가깝습니다. 감마 분포는 양의 실수에 대해서만 밀도를 갖습니다. 감마 분포 pdf와 정규분포 pdf 비교하기 항목을 참조하십시오.

  • Half-Normal Distribution — 절반 정규분포는 접힌 정규분포 및 잘린 정규분포의 특수한 사례입니다. 확률 변수 Z가 표준 정규분포를 갖는 경우 X=μ+σ|Z|는 모수가 μ 및 σ인 절반 정규분포를 갖습니다.

  • Logistic Distribution — 로지스틱 분포는 성장 모델에 대해 그리고 로지스틱 회귀에서 사용됩니다. 로지스틱 분포는 정규분포보다 꼬리가 길고 첨도가 높습니다.

  • 로그 정규분포 — X가 모수 µ 및 σ를 갖는 로그 정규분포를 따르면 log(X)는 평균 µ 및 표준편차 σ를 갖는 정규분포를 따릅니다. 정규분포와 로그 정규분포 사이의 관계 항목을 참조하십시오.

  • 다변량 정규분포 — 다변량 정규분포는 일변량 정규분포를 둘 이상의 변수로 일반화한 것입니다. 이는 상관관계가 있는 변수로 구성된 확률 벡터에 대한 분포이며, 각 요소는 일변량 정규분포를 가집니다. 가장 간단한 경우 변수 간에 상관관계가 없으며 벡터의 각 요소는 독립 일변량 정규 확률 변수입니다.

  • 푸아송 분포 — 푸아송 분포는 음이 아닌 정수 값을 받는 1-모수 이산 분포입니다. 모수 λ는 분포의 평균이자 분산입니다. λ가 커지면 푸아송 분포는 µ = λσ2 = λ를 갖는 정규분포로 근사할 수 있습니다.

  • Rayleigh Distribution — 레일리 분포는 베이불 분포의 특수한 사례로, 통신 이론에서 응용됩니다. 입자의 성분 속도가 x 방향과 y 방향에서 평균이 0이고 분산이 동일한 두 개의 독립적인 정규 확률 변수라면 단위 시간당 입자가 이동하는 거리는 레일리 분포를 따릅니다.

  • Stable Distribution — 정규분포는 안정분포의 특수한 사례입니다. 첫 번째 형태 모수 α = 2를 갖는 안정분포는 정규분포와 일치합니다.

    N(μ,σ2)=S(2,0,σ2,μ).

  • Student's t Distribution — 스튜던트 t 분포는 단일 모수 ν(자유도)에 종속적인 곡선족입니다. 자유도 ν가 무한대에 가까워지면 t 분포는 표준 정규분포에 가까워집니다. 스튜던트 t 분포 pdf와 정규분포 pdf 비교하기 항목을 참조하십시오.

    x가 평균이 μ인 정규분포에서 추출한 크기 n의 임의 표본이라면 다음과 같은 통계량은 자유도가 n–1인 스튜던트 t 분포를 갖습니다.

    t=x¯μs/n

    여기서 x¯는 표본평균이고 s는 표본 표준편차입니다.

  • t Location-Scale Distributiont 위치-척도 분포는 정규분포보다 꼬리가 두꺼운(이상값이 발생할 가능성이 더 높은) 데이터 분포를 모델링하는 데 유용합니다. 형태 모수 ν가 무한대에 가까워지면 위치-척도 분포는 정규분포에 가까워집니다.

참고 문헌

[1] Abramowitz, M., and I. A. Stegun. Handbook of Mathematical Functions. New York: Dover, 1964.

[2] Evans, M., N. Hastings, and B. Peacock. Statistical Distributions. 2nd ed. Hoboken, NJ: John Wiley & Sons, Inc., 1993.

[3] Lawless, J. F. Statistical Models and Methods for Lifetime Data. Hoboken, NJ: Wiley-Interscience, 1982.

[4] Marsaglia, G., and W. W. Tsang. “A Fast, Easily Implemented Method for Sampling from Decreasing or Symmetric Unimodal Density Functions.” SIAM Journal on Scientific and Statistical Computing. Vol. 5, Number 2, 1984, pp. 349–359.

[5] Meeker, W. Q., and L. A. Escobar. Statistical Methods for Reliability Data. Hoboken, NJ: John Wiley & Sons, Inc., 1998.

참고 항목

| | | | | | | |

관련 항목