2020/2/23

2020/6/23

統計

正規分布の式の導出

目次 [非表示]

ガウスの公理
関数形の決定
係数の決定
正規分布の式

正規分布の式 \[N(\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\] の導出をします。歴史的にはドモアブルが二項分布の極限として正規分布を発見し、ラプラスが拡張して厳密な証明を与えたのが起源ですが、その後ガウスによって全く別の方法で導出されます。今回はそのガウスの方法に倣って導出をしていきます。

ガウスの公理

ある棒の長さを複数回計測するとします。このとき、棒の真の長さを \(X\) 、 \(i\) 回目の計測値を \(x_i\) とすると、各計測には計測誤差 \(\varepsilon_i\) が生じるため、

\begin{align} x_i = X+\varepsilon_i \end{align}

と表すことができます。この誤差 \(\varepsilon\) の従う分布を考えます。もし系統的に生じている誤差であれば取り除くことができるので \(\varepsilon\) は偶然誤差であるとします。ここでガウスの公理と呼ばれる３つの前提条件を設定します（公理とは、論証抜きで真と仮定する前提条件のことです）。

大きさの等しい正と負の誤差は等しい確率で生じる
小さい誤差は大きい誤差より起こりやすい
ある限界値より大きな誤差は実際上起こらない

どれも自然な条件ですね。この３つの前提条件のもと、偶然誤差が従う分布が正規分布であることを証明します。

関数形の決定

\(\varepsilon\) について考えていきましょう。 \(\varepsilon\) の従う確率密度関数を \(f(\varepsilon)\) とすると、 \(\varepsilon_i\) の生起する確率は \(f(\varepsilon_i)d\varepsilon\) です。また、(1)式より

\begin{align} \varepsilon_i = x_i-X \end{align}

であり、 \(n\) 回の計測結果 \(x_1,x_2,\cdots,x_n\) がそれぞれ独立なので、 \(\varepsilon_i\) も独立です。よって、これらが同時に起こる確率は、

\begin{align*} f(\varepsilon_1)d\varepsilon f(\varepsilon_2)d\varepsilon\cdots f(\varepsilon_n)d\varepsilon=(d\varepsilon)^n\prod_{i=1}^n f(\varepsilon_i) \end{align*}

となります。これを \(P(d\varepsilon)^n\) とおくと、

\begin{align} P=\prod_{i=1}^n f(\varepsilon_i) \end{align}

であり、 \(P\) が最大となるとき同時確率も最大となります。ここで、\(P\) は \(\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n\) の関数、すなわち \(x_1,x_2,\cdots,x_n,X\) の関数です。 \(x_1,x_2,\cdots,x_n\) は観測によって得られる定数なので \(X\) についての関数と見ることにします。 \(\varepsilon_n\) の関数として見たとき、ガウスの公理の２つ目から \(\varepsilon_1=\varepsilon_2=\cdots=\varepsilon_n=0\) のとき \(P\) は最大となることがわかりますが、 \(X\) の関数として見たときどのような \(X\) で \(P(X)\) は最大となるでしょうか。ガウスはこれについて、「 \(X=\mu=\frac{x_1+x_2+\cdots+x_n}{n}\) のときに同時確率が最大となる」という仮定を置きました。今、「最大確率で起こる事象の実現値として、観測値が得られている」というように考えれば、 \(X\) が真値のとき同時確率が最大となり、 \(P(X)\) も最大となります。ガウスの公理の１つ目から、十分大きい \(n\) のとき

\begin{align*} \mu &= \frac{x_1+x_2+\cdots+x_n}{n}\\ &=\frac{(\varepsilon_1+X)+(\varepsilon_2+X)+\cdots+(\varepsilon_n+X)}{n}\\ &=\frac{\varepsilon_1+\varepsilon_2+\cdots+\varepsilon_n}{n}+X\\ &=X \end{align*}

となるので \(\mu\) は厳密ではないにしろ、真値にとても近い値となります。これらから、この仮定が無理のないものであることがわかるかと思います。 (3)式について、両辺の対数をとり、 \(P\) を \(X\) の関数と見て両辺 \(X\) で微分すると、

\begin{align} \frac{P'(X)}{P(X)}=\sum_{i=1}^n \frac{1}{f(\varepsilon_i)}\frac{df(\varepsilon_i)}{dX} \end{align}

\(X=\mu\) で \(P(X)\) が最大値をとるという先ほどの仮定より、 \(P'(\mu)=0\) です。また、合成関数の微分法より、

\begin{align*} \frac{df(\varepsilon_i)}{dX}&=\frac{df(\varepsilon_i)}{d\varepsilon_i}\frac{d\varepsilon_i}{dX}\\ &=\frac{df(\varepsilon_i)}{d\varepsilon_i}\frac{d(x_i-X)}{dX}\\ &=-\frac{df(\varepsilon_i)}{d\varepsilon_i} \end{align*}

となるので、(4)式に \(X=\mu\) を代入すると、 \[0=-\sum_{i=1}^n \frac{1}{f(\varepsilon_i)}\frac{df(\varepsilon_i)}{d\varepsilon_i}\] となります。ただし、この式以降 \(\varepsilon_i=x_i-\mu\) とします。 \(\frac{1}{f(\varepsilon_i)}\frac{df(\varepsilon_i)}{d\varepsilon_i}=\psi(\varepsilon_i)\) とおけば

\begin{align} \psi(\varepsilon_1)+\psi(\varepsilon_2)+\cdots+\psi(\varepsilon_n)=0 \end{align}

となります。また、 \(\varepsilon_i=x_i-\mu\) と \(\mu\) の定義より、

\begin{align} \varepsilon_1+\varepsilon_2+\cdots+\varepsilon_n=0 \end{align}

です。 (5)(6)式を満たすような \(\psi(\varepsilon)\) の関数形は \(\psi(\varepsilon)=c\varepsilon\) ( \(c\) は定数)となります。

（証明： [表示]　）

ゆえに、

\begin{align*} \dfrac{1}{f(\varepsilon)}\dfrac{df(\varepsilon)}{d\varepsilon}=c\varepsilon \end{align*}

この変数分離形の微分方程式を解くと、

\begin{align*} \int \frac{1}{f(\varepsilon)}df(\varepsilon) &= \int c\varepsilon d\varepsilon\\ \therefore f(\varepsilon)&=\exp\left(\frac{c}{2}\varepsilon^2+d\right) \end{align*}

\(c,d\) は定数です。 \(e^d=k\) と改めて置くと、 \(f(\varepsilon)\) の関数形は \[f(\varepsilon)=k\exp\left(\frac{c}{2}\varepsilon^2\right)\] となります。ようやくそれらしいものが出てきました。

係数の決定

ガウスの公理の３つ目より、 \[\lim_{\varepsilon\rightarrow\pm\infty}f(\varepsilon)=0\] なので、 \(c < 0\) です。わかりやすさのため、 \(c'=-c\hspace{3mm}(c'>0)\) として置き換えます。

\begin{align} f(\varepsilon)=k\exp\left(-\frac{c'}{2}\varepsilon^2\right) \end{align}

次に、「確率密度関数が満たすべき性質： \(\int_{-\infty}^\infty f(\varepsilon)d\varepsilon=1\) 」と、「分散が \(\sigma^2\) である」という束縛条件を考えることで定数 \(c',k\) の値を決定していきます。なお、以降の計算では、ガウス積分 \[\int_{-\infty}^\infty \exp(-ax^2)dx=\sqrt{\frac{\pi}{a}}\] が多く出てきます。（わからない場合はリンク先などを参照してください。）一つ目の条件、「全積分が１」を考えます。ガウス積分を利用すると、

\begin{align} \int_{-\infty}^\infty k\exp\left(-\frac{c'}{2}\varepsilon^2\right)=k\sqrt{\frac{2\pi}{c'}}=1 \end{align}

となります。二つ目の条件、「分散が \(\sigma^2\) 」を考えます。

\begin{align*} V[\varepsilon]&=E[\varepsilon^2]-(E[\varepsilon])^2\\ &=\int_{-\infty}^\infty \varepsilon^2 f(\varepsilon)d\varepsilon - \int_{-\infty}^\infty \varepsilon f(\varepsilon)d\varepsilon \\ &= \sigma^2\\ \\\\ \int_{-\infty}^\infty \varepsilon^2 f(\varepsilon)d\varepsilon &= \int_{-\infty}^\infty \varepsilon^2 k\exp\left(-\frac{c'}{2}\varepsilon^2\right)d\varepsilon\\ &= k\int_{-\infty}^\infty \varepsilon \left(-\frac{1}{c'}\exp\left(-\frac{c'}{2}\varepsilon^2\right)\right)'d\varepsilon\\ &= k\left( \left[ -\frac{\varepsilon}{c'}\exp\left(-\frac{c'}{2}\varepsilon^2\right) \right]_{-\infty}^\infty + \int_{-\infty}^\infty \frac{1}{c'}\exp\left(-\frac{c'}{2}\varepsilon^2\right)d\varepsilon\right)\\ &=k\left(0+\frac{1}{c'}\sqrt{\frac{2\pi}{c'}}\right)\\ &=\frac{k}{c'}\sqrt{\frac{2\pi}{c'}}\\ \\ \int_{-\infty}^\infty \varepsilon f(\varepsilon)d\varepsilon &= \int_{-\infty}^\infty \varepsilon k\exp\left(-\frac{c'}{2}\varepsilon^2\right)d\varepsilon\\ &= k\left[-\frac{1}{c'}\exp\left(-\frac{c'}{2}\varepsilon^2\right)\right]_{-\infty}^\infty\\ &= 0 \end{align*}

以上より、次が言えます。

\begin{align} \frac{k}{c'}\sqrt{\frac{2\pi}{c'}}=\sigma^2 \end{align}

(9)(10)式を連立することで、

\begin{align*} c'&=\frac{1}{\sigma^2}\hspace{2mm}(>0)\\ k&=\frac{1}{\sqrt{2\pi\sigma^2}} \end{align*}

が求められます。これらを(8)式に代入することで、

\begin{align} f(\varepsilon)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{\varepsilon^2}{2\sigma^2}\right) \end{align}

となります。これで \(\varepsilon=x-\mu\) の確率密度関数が求められました。

正規分布の式

\(\varepsilon=x-\mu\) を(11)式に代入してみます。

\begin{align*} f(x-\mu)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \end{align*}

\(\mu\) は確率変数ではなく定数なので、結局 \(x\) の確率密度関数は

\begin{align*} f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \end{align*}

となります。やっとたどり着けました。

今回のまとめ

ガウスの公理を出発点として、同時確率が\(X=\mu\)で最大となるという仮定のもとで、正規分布が導出される。

参考

「Theory of the motion of the heavenly bodies moving about the sun in conic sections」Book II Section 3, Carl Friedrich Gauss

正規分布の発見：http://www.math.s.chiba-u.ac.jp/~yasuda/statA/072.pdf

ガウス分布の導出：http://www.eng.niigata-u.ac.jp/~nomoto/7.html

正規分布(ガウス分布)の式の導出：https://www.youtube.com/watch?v=P9t5q6GugZA

back