『データ解析のための統計モデリング入門』
読書メモ
-
- 観察によってデータ化された現象を説明するために作られる
- 確率分布が基本的な部品であり、これはデータに見られるばらつきを表現する手段である
- データとモデルを対応付ける手続きが分化されていて、モデルがデータにどれくらいよく当てはまっているかを定量的に評価できる
-
一般化線形モデル Generalized Linear Model(GLM)
- 線形モデル(一般線形モデル)Linear Model に対して、データのばらつきが等分散正規分布であることの仮定を外したもの
- 正規分布以外の確率分布も扱えるようにしたもの
1章
- 観測データは自然現象のごく一部を切り取ったものであり、そこに見られるパターンを要約したり、未観測の挙動を予測するために統計モデルが必要
- この本では最も簡単な統計モデルの一つである一般化線形モデルをベースに改良していきながら、様々な概念を学習する
3章
対数リンク関数をなぜつかう?
-
λ を非負にしたい
-
積処理の効果
-
ポアソン分布だから?
-
指数分布族に対して正準リンク関数が一意に定まる
4章(AIC)
モデル選択の目的は「真の」モデルを求めることではない
- AICを導入する
- AICは標本と推定した分布の距離ではなく、推定した分布と真の分布(未知)の距離を測ろうとしている
- 要するに KL Divergence を考えているのと同じようなもの
- 式変形すると DKL[Q(x)∥P(x)]=∫Q(x)logP(x)Q(x)dx=∫Q(x)logQ(x)dx−∫Q(x)logP(x)dx
- で、−E[lnP(x)]=E[logL]
- 一方 AIC の定義は AIC=−2(logL∗−b)=−2E[logL]
- 平均対数尤度 E[logL] を直接求めることはできない(真の統計モデルがわからないから)
- で、AIC では b∗ をパラメータ数 k でもいいよ、という話
- 証明はあるが割愛、数理統計をちゃんとやれば分かるらしい
8章(MCMC・ベイズ)
- 7章で取り扱ったランダム効果について、対数尤度を評価するには発生源の分だけの多重積分が必要になる
- 複雑なモデルでは最尤推定が困難になる
- MCMC(マルコフ連鎖モンテカルロ法)
- パラメータ
qの初期値を選ぶ qを増やすか減らすかをランダムに決める(新しく選んだqをq_newとする)q_newでの尤度が大きくなる場合は q→qnew と更新q_newでの尤度が小さくなる場合は確率 r=L(qnew)/L(q) で q→qnew と更新
- 事後分布=データが得られる確率尤度×事前分布∝尤度×事前分布
といった構造を持つ統計モデル。
10章(階層ベイズ)
- 階層事前分布を使って一般化線形混合モデル(GLMM)を階層ベイズモデルとして扱う方法について説明している
- 個体差なども組み込んだ現実的な統計モデルを構築するには、無情報事前分布だけではなく階層事前分布も使わなければならない
- 階層ベイズモデル = ベイズ版 GLMM
- 階層事前分布 p(ri∣s) を使っているベイズ統計モデル
- 階層: 事前分布のパラメータにさらに事前分布が設定されていること
統計モデルのパラメータと事前分布
| パラメータの種類 | 説明する範囲 | 同じようなパラメータの個数 | 事前分布 |
|---|---|---|---|
| 全体に共通する平均・ばらつき | 大域的 | 少数 | 無情報事前分布 |
| グループごとのずれ・個体差 | 局所的 | 多数 | 階層事前分布 |
例
- 切片 β は、これ一つでデータ全体を説明している大域的なパラメータ → 無情報事前分布を用いて推定
- 個体差 {ri} は、以下の点から局所的なパラメータ
- 個々の ri はデータ全体のごく一部を説明しているだけ
- 全個体の {ri} は「似たような(ある分布に従う)」パラメータの集まりと考えられる
- → {ri} 全体のばらつきを決める階層事前分布を推定する