AICとBIC
目次
1 はじめに
情報量基準AIC, BICについてまとめる.
2 赤池情報量基準(AIC)
2.1 設定
- 独立な観測データ \(:{\boldsymbol x} = \{ x_1, \cdots, x_N \}\)
- 真の分布 \(: G(\cdot)~~\) (確率密度関数 \(g(\cdot)\) を持つ, \({\boldsymbol x} \sim G\))
- モデルの候補 \(:\mathcal{M}_m,~ \forall m \in
\{1,\cdots,M\}\)
- \(\mathcal{M}_{m}\) のパラメタ \(:{\boldsymbol \theta} \in \Theta_m
\subset{\mathbb R}^{p_m}\)
- \(\mathcal{M}_{m}\) の提案する確率密度関数 \(: f_m (\cdot |{\boldsymbol \theta})\)
- \({\boldsymbol \theta} \in \Theta_m\) の尤度 \(: f_m({\boldsymbol x}| {\boldsymbol \theta}) := \prod_{i=1}^{N}f_m(x_i|{\boldsymbol \theta})\)
- \({\boldsymbol \theta}\) の最尤推定量 \(: \hat{{\boldsymbol \theta}}({\boldsymbol x}):=
\mathop{\rm argmax}\limits_{{\boldsymbol \theta}\in \Theta_m}~ \log f_m({\boldsymbol x}|{\boldsymbol \theta})\)
- カルバック–ライブラー情報量 \(: I(g(z);~f(z)) := E_z\left[\log \frac{g(z)}{f(z)}\right]~~\)
\((f,g:\) 確率密度関数)
2.2 仮定
- \(N\) が十分大きい \(~(N \rightarrow \infty)\)
- 提案した確率密度関数 \(f_m(\cdot|{\boldsymbol \theta})\) の中に真の分布 \(g(\cdot)\) が含まれている
(\(\exists {\boldsymbol \theta}_0 \in \Theta_m~~~{\rm s.t.}~~g(\cdot) = f_m(\cdot|{\boldsymbol \theta}_0)\))
2.3 導出
\(z \sim G\) とする.
3 ベイズ情報量規準(BIC)
3.1 設定
- 独立な観測データ \(:{\boldsymbol x} = \{ x_1, \cdots, x_N \}\)
- モデルの候補 \(:\mathcal{M}_m,~ \forall m \in
\{1,\cdots,M\}\)
- \(\mathcal{M}_{m}\) のパラメタ \(:{\boldsymbol \theta} \in \Theta_m
\subset{\mathbb R}^{p_m}\)
- \(\mathcal{M}_{m}\) の提案する確率密度関数 \(: f_m (\cdot |{\boldsymbol \theta})\)
- \({\boldsymbol \theta} \in \Theta_m\) の尤度 \(: f_m({\boldsymbol x}| {\boldsymbol \theta}) := \prod_{i=1}^{N}f_m(x_i|{\boldsymbol \theta})\)
- \({\boldsymbol \theta}\) の最尤推定量 \(: \hat{{\boldsymbol \theta}}({\boldsymbol x}):=
\mathop{\rm argmax}\limits_{{\boldsymbol \theta}\in \Theta_m} ~\log f_m({\boldsymbol x}|{\boldsymbol \theta})\)
3.2 仮定
- \(N\) が十分大きい \(~(N \rightarrow \infty)\)
- モデルの事前確率が全て等しい \(~\) (\(\mbox{Pr}(\mathcal{M}_{1}) = \cdots = \mbox{Pr}(\mathcal{M}_{M}) = 1/M\))
3.3 導出
\begin{align*}
\mathop{\rm argmax}\limits_m~ \mbox{Pr}(\mathcal{M}_m|\boldsymbol{x})
&=
\mathop{\rm argmax}\limits_m~ \mbox{Pr}(\boldsymbol{x}|\mathcal{M}_m) \quad (\mbox{仮定} 2) \\
&=
\mathop{\rm argmax}\limits_m~ \int\mbox{Pr}(\boldsymbol{x},\boldsymbol{\theta}| \mathcal{M}_m)d\boldsymbol{\theta}\\
&=
\mathop{\rm argmax}\limits_m~ \log \int \underbrace{\mbox{Pr}(\boldsymbol{x}|\boldsymbol{\theta},\mathcal{M}_m)}_{= f_m(\boldsymbol{x}|\boldsymbol{\theta})} \mbox{Pr}(\boldsymbol{\theta}|\mathcal{M}_m)d\boldsymbol{\theta}\\
&\approx
\mathop{\rm argmax}\limits_m~ \log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) - \frac{p_m}{2}\log N + O(1) \quad(\mbox{ラプラス近似})\\
&\approx
\mathop{\rm argmax}\limits_m~ \log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) -\frac{p_m}{2}\log N \quad(\mbox{仮定} 1 )\\
& =
\mathop{\rm argmin}\limits_m~ \underbrace{(-2)\log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) + p_m\log N}_{= ~\mbox{BIC}}
\end{align*}
4 まとめ
- モデルの候補のうち, 真の分布に一番''近い''モデルを選択するのがAIC, 事後確率を最大にするモデルを選択するのがBIC
- AICよりBICの方がパラメタ数の少ない単純なモデルを選択する
(\(\ast~2 p_m \ll p_m \log N~~\mbox{as}~N \rightarrow \infty\))
5 参考文献
- R. Tibshirani T. Hastie and J. Friedman. The Elements of Statistical Learning. Springer, 2008.
- 小西貞則, 北川源四郎. 情報量基準. 朝倉書店, 2004.
- Likelihood/AIC/BIC尤度と情報量基準 http://www.mbs.med.kyoto-u.ac.jp/cortex/2-7_AIC_BIC.pdf