雑記

いろいろ

幾何学的にCramer-Raoの定理を理解する(メモ)

Cramer-Raoの定理

準備

標本空間$\Omega = \qty{\omega_0, \dots, \omega_n}$について、その上の確率測度全体のなす多様体$S = S_{n}$を考え、$M$をその部分空間とする。

パラメタ$\xi$によって指定される$M$上の点$p\xi$における$S$の接空間$T{p\xi}S$を考える。$X\in T{p\xi}S$について、$X\log p\xi$ を$e$-表現、$Xp_\xi$を$m$-表現 と呼ぶ。ここで、$X$は線形性とライプニッツ則を満たす作用素、つまり微分作用素であり、パラメタによる微分作用素$\pdv{}{\xi_i}$の線形結合で表現できることに注意する。

ここで、微分作用素のなす空間$V = T{p\xi}S$($n$次元)と、その$e$-表現である$X\log p\xi$のなす空間、つまり$\qty{\pdv{\log p\xi}{\xi_i}}i$が張る線形空間$V_e$ ($n$次元)を同一視することを考える。$\pdv{\log p\xi}{\xi_i}$たちは、確率変数であることに注意。

実は$V_e$は$\Omega$上の確率変数であって、その期待値が$0$となるもの全体の集合と一致する(確率変数全体の次元は$|\Omega| =n+1$なのでそこに制約が一つついて$n$次元となる)。これの良いところは、確率変数に対し内積をいつものように $$ \lang X, Y \rang = \sum{\omega\in \Omega} X(\omega)Y(\omega) = E[XY] $$ で定めると、基底を$\qty{\pdv{\log p\xi}{\xi_i}}i$にとれば、計量が$g{ij} = E[\part{\xi_i}\log p\xi\part{\xi_j}\log p\xi]$

となり$T{p\xi}S$と$V_e$の対応で内積が保存されるところである。

Cramer-Raoの定理

$\xi$の推定値を$\hat \xi$としよう。これは$\Omega$上の確率変数である。$\hat \xi$が不変推定量であるとすると、$E[\hat \xi -\xi] = 0$がなりたつ(バイアスがないということ)。よって$\hat \xi_i -\xi_i \in V_e$である。 $T{p\xi}M$はもちろん$T{p\xi}S$の部分空間であり、$L_i\part_i \log p\xi$たちはその基底である。双対基底はもちろん$Li = g^{ij}L_j$となる。実は以下が成り立つ。 $$ \lang \hat \xi_i -\xi_i, L_j\rang = \delta_ji $$ これは $$ \begin{align} \partial_iE[\hat\xi_j] &= \partial_i\sum p{\xi}(\omega)\hat\xi_j(\omega)\ &=\sum \partial_i p_{\xi}(\omega)\hat\xi_j(\omega)\ &=\delta_ij \end{align} $$ などから従う。

結果の式は陪直交の条件に似ている。よって直感的には$\hat \xi_i -\xi_i$を$T{p\xi}^{(e)}M$に射影すれば$L_i$と一致しそうである。実際、 $$ \lang \hat \xi_i -\xi_i, Lj\rang = \lang Li, Lj\rang $$ が任意の$i, j$に対して成り立つのでその予想は正しい。任意の$\qty{a_i}i$について、$\sum a_i(\hat \xi_i -\xi_i)$を考えても同じく、これを$T{p_\xi}^{(e)}M$に射影すれば$\sum a_i Li$になる。射影によってノルムは小さくなるので、行列不等式を得る。

参考

藤原彰夫, 情報幾何学の基礎, 牧野書店(2015)