2017年5月13日土曜日

AICとBIC

AICとBIC

AICとBIC

1 はじめに

情報量基準AIC, BICについてまとめる.

2 赤池情報量基準(AIC)

2.1 設定

  • 独立な観測データ \(:{\boldsymbol x} = \{ x_1, \cdots, x_N \}\)
  • 真の分布 \(: G(\cdot)~~\) (確率密度関数 \(g(\cdot)\) を持つ, \({\boldsymbol x} \sim G\))
  • モデルの候補 \(:\mathcal{M}_m,~ \forall m \in \{1,\cdots,M\}\)
  • \(\mathcal{M}_{m}\) のパラメタ \(:{\boldsymbol \theta} \in \Theta_m \subset{\mathbb R}^{p_m}\)
  • \(\mathcal{M}_{m}\) の提案する確率密度関数 \(: f_m (\cdot |{\boldsymbol \theta})\)
  • \({\boldsymbol \theta} \in \Theta_m\) の尤度 \(: f_m({\boldsymbol x}| {\boldsymbol \theta}) := \prod_{i=1}^{N}f_m(x_i|{\boldsymbol \theta})\)
  • \({\boldsymbol \theta}\) の最尤推定量 \(: \hat{{\boldsymbol \theta}}({\boldsymbol x}):= \mathop{\rm argmax}\limits_{{\boldsymbol \theta}\in \Theta_m}~ \log f_m({\boldsymbol x}|{\boldsymbol \theta})\)
  • カルバック–ライブラー情報量 \(: I(g(z);~f(z)) := E_z\left[\log \frac{g(z)}{f(z)}\right]~~\)
    \((f,g:\) 確率密度関数)

2.2 仮定

  1. \(N\) が十分大きい \(~(N \rightarrow \infty)\)
  2. 提案した確率密度関数 \(f_m(\cdot|{\boldsymbol \theta})\) の中に真の分布 \(g(\cdot)\) が含まれている
    (\(\exists {\boldsymbol \theta}_0 \in \Theta_m~~~{\rm s.t.}~~g(\cdot) = f_m(\cdot|{\boldsymbol \theta}_0)\))

2.3 導出

\(z \sim G\) とする.

\begin{align*} \mathop{\rm argmin}\limits_m ~ E_{{\boldsymbol x}} [ I(g(z) ;~ f_m(z|\hat{{\boldsymbol \theta}}({\boldsymbol x}))) ] &= \mathop{\rm argmax}\limits_m ~ E_{{\boldsymbol x}} [ E_z [ \log f_m(z| \hat{{\boldsymbol \theta}}({\boldsymbol x})) ] ]\\ &\approx \mathop{\rm argmax}\limits_m~ E_{{\boldsymbol x}}\left[ \frac{1}{N} \log f_m ({\boldsymbol x} | \hat{{\boldsymbol \theta}}({\boldsymbol x})) \right] \quad\hspace{1em}\left(\mbox{仮定}1\right)\\ & \approx \mathop{\rm argmax}\limits_m~ \frac{1}{N} \log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) - E_{\boldsymbol{x}}\left[ \frac{1}{N} \log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) - E_z [ \log f_m(z | \hat{\boldsymbol{\theta}}(\boldsymbol{x})) ] \right] \\ &\quad(\mbox{不偏推定量}) \\ & \approx \mathop{\rm argmax}\limits_m \frac{1}{N} ( \log f_m(\boldsymbol{x} | \hat{\boldsymbol{\theta}}(\boldsymbol{x}) ) - p_m) \quad(\mbox{仮定} 1, 2 )\\ & = \mathop{\rm argmin}\limits_m ~\underbrace{(-2) \log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) + 2p_m}_{=~\mbox{AIC}} \end{align*}

3 ベイズ情報量規準(BIC)

3.1 設定

  • 独立な観測データ \(:{\boldsymbol x} = \{ x_1, \cdots, x_N \}\)
  • モデルの候補 \(:\mathcal{M}_m,~ \forall m \in \{1,\cdots,M\}\)
  • \(\mathcal{M}_{m}\) のパラメタ \(:{\boldsymbol \theta} \in \Theta_m \subset{\mathbb R}^{p_m}\)
  • \(\mathcal{M}_{m}\) の提案する確率密度関数 \(: f_m (\cdot |{\boldsymbol \theta})\)
  • \({\boldsymbol \theta} \in \Theta_m\) の尤度 \(: f_m({\boldsymbol x}| {\boldsymbol \theta}) := \prod_{i=1}^{N}f_m(x_i|{\boldsymbol \theta})\)
  • \({\boldsymbol \theta}\) の最尤推定量 \(: \hat{{\boldsymbol \theta}}({\boldsymbol x}):= \mathop{\rm argmax}\limits_{{\boldsymbol \theta}\in \Theta_m} ~\log f_m({\boldsymbol x}|{\boldsymbol \theta})\)

3.2 仮定

  1. \(N\) が十分大きい \(~(N \rightarrow \infty)\)
  2. モデルの事前確率が全て等しい \(~\) (\(\mbox{Pr}(\mathcal{M}_{1}) = \cdots = \mbox{Pr}(\mathcal{M}_{M}) = 1/M\))

3.3 導出

\begin{align*} \mathop{\rm argmax}\limits_m~ \mbox{Pr}(\mathcal{M}_m|\boldsymbol{x}) &= \mathop{\rm argmax}\limits_m~ \mbox{Pr}(\boldsymbol{x}|\mathcal{M}_m) \quad (\mbox{仮定} 2) \\ &= \mathop{\rm argmax}\limits_m~ \int\mbox{Pr}(\boldsymbol{x},\boldsymbol{\theta}| \mathcal{M}_m)d\boldsymbol{\theta}\\ &= \mathop{\rm argmax}\limits_m~ \log \int \underbrace{\mbox{Pr}(\boldsymbol{x}|\boldsymbol{\theta},\mathcal{M}_m)}_{= f_m(\boldsymbol{x}|\boldsymbol{\theta})} \mbox{Pr}(\boldsymbol{\theta}|\mathcal{M}_m)d\boldsymbol{\theta}\\ &\approx \mathop{\rm argmax}\limits_m~ \log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) - \frac{p_m}{2}\log N + O(1) \quad(\mbox{ラプラス近似})\\ &\approx \mathop{\rm argmax}\limits_m~ \log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) -\frac{p_m}{2}\log N \quad(\mbox{仮定} 1 )\\ & = \mathop{\rm argmin}\limits_m~ \underbrace{(-2)\log f_m(\boldsymbol{x}|\hat{\boldsymbol{\theta}}(\boldsymbol{x})) + p_m\log N}_{= ~\mbox{BIC}} \end{align*}

4 まとめ

  • モデルの候補のうち, 真の分布に一番''近い''モデルを選択するのがAIC, 事後確率を最大にするモデルを選択するのがBIC
  • AICよりBICの方がパラメタ数の少ない単純なモデルを選択する
    (\(\ast~2 p_m \ll p_m \log N~~\mbox{as}~N \rightarrow \infty\))

5 参考文献