2020/3/22
パラメトリックな統計モデルにおいてパラメータの推定する際に、観測値を全て記録しておかなくても、観測値を要約した統計量を用いれば十分なことがあります。 この統計量のことを十分統計量と呼びます。
\(X_1,X_2,\cdots,X_N\) の組を \(X^N\) で表す。 \(X^N\) の同時確率分布 \(p(x^N;\theta)\) であるとする。 統計量 \(T(x^N)\) を与えたときの \(X^N\) の条件確率分布 \(p(x^N|t;\theta)\) が \(\theta\) によらないとき、 \(T\) を十分統計量という。
コインを \(N\) 回投げる事象を考える。コインは各回独立に確率 \(\theta\) で表が出るとして、 \(i\) 回目に表が出たとき確率変数 \(X_i\) を1、裏が出たとき0と定義する。すなわち、
\begin{align*} X_i= \begin{cases} 1 & {\rm with\hspace{3mm}probability\hspace{3mm}} \theta\\ 0 & {\rm with\hspace{3mm}probability\hspace{3mm}} 1-\theta \end{cases} \end{align*}
と定義すると、同時確率は
\begin{align*} p(x^N;\theta)=\prod_{i=1}^N \theta^{x_i} (1-\theta)^{1-x_i} \end{align*}
となる。ここで、統計量 \(T=\displaystyle\sum_{i=1}^N x_i\) を考えると、
\begin{align*} p(t;\theta)={}_NC_t\hspace{1mm}\theta^t (1-\theta)^{N-t} \end{align*}
であり、 \(X^N\) と \(T\) の同時確率は
\begin{align*} p(x^N,t;\theta)= \begin{cases} p(x^N;\theta) & {\rm if}\quad \sum x_i = t\\ 0 & {\rm otherwise} \end{cases} \end{align*}
なので、条件付き確率 \(p(x^N|t;\theta)\) は
\begin{align*} p(x^N|t;\theta)&=\dfrac{p(x^N,t;\theta)}{p(t;\theta)}\\ &= \begin{cases} \dfrac{1}{{}_NC_t}& {\rm if}\quad \sum x_i = t\\ 0 & {\rm otherwise} \end{cases} \end{align*}
となる。これはパラメータ \(\theta\) によらない。 すなわち \(T=\displaystyle\sum_{i=1}^N x_i\) はこの統計モデルにおける十分統計量である。
\(p(x^N;\theta)\) というモデルを \(T\) を介して捉えると、 \(\theta\) が与えられてまず \(T\) が \(p(t;\theta)\) (パラメータ \(\theta\) によって定まる確率分布)に従って分布し、その後 \(X^N\) が \(p(x^N|t;\theta)\) に従って分布しているという解釈になります。 この \(p(x^N|t;\theta)\) が \(\theta\) に寄らないということは、 \(\theta\) が直接影響するのは \(T\) までであり、それより後に分布する \(X^N\) の情報は(\(T\) がわかっているのなら) \(\theta\) の推定には不要であることを意味しています。 これが十分統計量のイメージです。
ある統計量 \(T\) が十分統計量かどうかを判断するために次の定理が存在します。
分解定理
\(X_1,X_2,\cdots,X_N\) の同時確率分布 \(p(x^N;\theta)\) が \[p(x^N;\theta)=g(x^N)h(t(x^N),\theta)\]の形に分解できることが、 \(T=t(X^N)\) が十分統計量であることの必要十分条件である。
ただし、\(g(x^N)\) は \(\theta\) に依存しない \(x^N\)の関数、\(h(t(x^N),\theta)\) は \(t,\theta\) の関数である。
分解定理を利用すると十分統計量かどうかが簡単に確認できます。
正規分布 \(N(\mu,1)\) において、 \(\overline{X}=\dfrac{1}{N}\displaystyle\sum_{i=1}^N X_i\) が十分統計量であることを示す。
\begin{align*} p(x^N;\mu)&=\prod_{i=1}^N \dfrac{1}{\sqrt{2\pi}}\exp\left(-\dfrac{(x_i-\mu)^2}{2}\right)\\ &=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x}+\bar{x}-\mu)^2\right)\\ &=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x})^2\right) \exp\left(-\dfrac{N}{2}(\bar{x}-\mu)^2\right) \end{align*}
ここで
\begin{align*} g(x^N)&=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x})^2\right) \\ h(\bar{x},\mu)&=\exp\left(-\dfrac{N}{2}(\bar{x}-\mu)^2\right) \end{align*}
とおけば \(p(x^N;\mu)=g(x^N)h(\bar{x},\mu)\) となるので、分解定理より \(\overline{X}\) は十分統計量である。
先ほどのコイン投げの例をもう一度考えてみる。
\begin{align*} p(x^N;\theta)&=\prod_{i=1}^N \theta^{x_i} (1-\theta)^{1-x_i}\\ &=\theta^{t} (1-\theta)^{N-t} \end{align*}
ここで
\begin{align*} g(x^N)&=1\\ h(t,\theta)&=\theta^{t} (1-\theta)^{N-t} \end{align*}
とおけば \(p(x^N;\theta)=g(x^N)h(t,\theta)\) となるので、分解定理より \(T\) は十分統計量である。 このように簡単に十分統計量かどうかがわかります。 なお、十分統計量 \(T\) やパラメータ \(\theta\) は多次元でも構いません。 正規分布 \(N(\mu,\sigma)\) における \((T_1,T_2)=\left(\overline{X},\dfrac1N\displaystyle\sum_{i=1}^N (X_i-\overline{X})^2\right)\) などがその例です。 (分解定理を利用する練習問題として示してみてください。)
今回のまとめ
参考
東京大学工学教程「確率・統計Ⅲ」, 駒木文保 清智也