2020/3/10
目次 [非表示]
KL情報量とは、二つの確率分布 \(p(x)\) と \(q(x)\) がどれだけ近いかを表す指標の一つです。 定義は以下の通りです。 \[D(p,q)=\int p(x)\log \frac{p(x)}{q(x)}dx\] \(D(p,q)\neq D(q,p)\) なので厳密には距離とは言えませんが、二つの確率分布間の近さを測る量となっています。
\begin{align*} D(p,q)&=\int p(x)\log \frac{p(x)}{q(x)}dx\\ &=-\int p(x)\log \frac{q(x)}{p(x)}dx\\ &\geqq -\int p(x)\left(\frac{q(x)}{p(x)}-1\right)dx\\ &=\int p(x)dx - \int q(x)dx \\ &=1-1=0 \end{align*}
より、「 \(D(p,q)\geqq 0\) 」「 \(D(p,q)=0\Leftrightarrow p(x)\equiv q(x)\)」の二つが言えます。 なお、途中の不等号評価には「 \(\log x \leqq x-1\) ( \(x=1\) のとき等号成立)」を利用しています。
まず情報量についての話をします。 確率 \(p(x)\) で起こる事象 \(E\) が実際に起こったときの情報量 \(I(E)\) を \[I(E)=-\log p(x)\] で定義します。 これは「よく起こることより稀に起こることの方が実際に観測されたときの情報価値が高い」という考えに基づいていて、確率 \(p(x)\) が0に近い方が \(I(E)\) の値は大きくなります。 さて、情報量という視点からKL情報量を見てみます。
\begin{align*} D(p,q)&=\int p(x)\log \frac{p(x)}{q(x)}dx\\ &=\int p(x)(\log p(x)-\log q(x))dx\\ &=\int p(x)(I_q(x)-I_p(x))dx\\ \end{align*}
\(I_q(x)-I_p(x)\) は \(x\) が起こったときの情報量の差を表しています。 つまり、KL情報量とは、「二つの確率分布の情報量の差の(一方から見た)期待値」ということになります。 (情報量の話についてはもう少し詳しく勉強した際に追記するかもしれません)
ある未知分布 \(p_0(x)\) に従う \(N\) 個の独立な観測値 \(x^N=(x_1,x_2,\cdots,x_N)\) が得られたとき、パラメータ \(\theta\) で指定される確率分布 \(p(x;\theta)\) で \(p_0(x)\) を近似することを考えます。 KL情報量の観点から \(\theta\) の推定値を求めていきます。 \(p_0(x)\) と \(p(x;\theta)\) の間のKL情報量は
\begin{align*} D(p_0,p)&=\int p_0(x)\log \frac{p_0(x)}{p(x;\theta)}dx\\ &=\int p_0(x)\log p_0(x)dx- \int p_0(x) \log p(x;\theta)dx\\ \end{align*}
第1項は \(\theta\) に依存しないため、第2項を最大化するような \(\theta\) のときKL情報量が最小となり、よく近似されることになります。 とはいえ、 \(p_0(x)\) は未知分布なのでこのような \(\theta\) を直接求めることはできません。 そこで第2項 \(\displaystyle\int p_0(x) \log p(x;\theta)dx\) を \[\frac{1}{N}\sum_{i=1}^N \log p(x_i;\theta)\] によって近似します。(これは \(N\rightarrow\infty\) のとき、大数の法則により \(\displaystyle\int p_0(x) \log p(x;\theta)dx\) の値に収束します。) つまり、 \(\theta\) の推定量として \(\dfrac{1}{N}\displaystyle\sum_{i=1}^N \log p(x_i;\theta)\) を最大化するような値を採用することになりますが、これは最尤推定値 \(\hat{\theta}(x^N)\) に他なりません。
今回のまとめ
参考
東京大学工学教程「確率・統計Ⅲ」, 駒木文保 清智也
KL情報量を概念的に理解する:https://www.yasukelab.com/entry/2016/06/07/145455