「プログラミングのための確率統計」を読む : 2章
複数の確率変数のからみあい
- 現実では複数の確率変数の関わりあいを解析する。
- 絡まり合いを調べる必要がある。
からまりあいを理解するには、神様視点を使って
- 同時確率、周辺確率、条件付き確率の3点セットを抑える
- Bayesの公式も3点セットの応用
- 独立性という概念もしっかりと。
2.1 各県の土地利用
2.1.1 県別、用途別の集計(同時確率と周辺確率)
神様視点なので、確率を面積として扱う。
- 全体の面積は1
- A県とB県とC県がある
- 住宅と栗林と工場ががある
- P(A) + P(B) + P(C) = 1
- P(住宅) + P(栗林) + P(工場) = 1
- A県の住宅の面積は、P(A,住宅)とかく
2.1.2 県内、用途内の割合(条件付き確率の練習)
どの県が、工場を重視しているのかを考える。
- 単純にP(A,工場)、P(B,工場)、P(C,工場)を比べるのはバッドアイディア。
- 県の面積が違うのだから。
- 各県の面積に占める工場の割合を比べればいい。
- A県に占める工場の割合 = A県内の工場の面積 / A県の面積 = P(工場 | A)
- B県に占める工場の割合 = B県内の工場の面積 / B県の面積 = P(工場 | B)
- C県に占める工場の割合 = C県内の工場の面積 / C県の面積 = P(工場 | C)
2.1.3 割合を逆算するには (Bayesの公式の練習)
P(県)とP(用途|県)の一覧から、P(県 | 用途)を計算する。
- P(A県|栗林)は、国全体の栗林のうち、A県が占める割合。つまり P(A,栗林)/ P(栗林)
- P(A,栗林)とP(栗林)がわかれば、P(A県|栗林)がわかる。
- P(A,栗林)は、A県の栗林の面積。国全体に占めるA県の面積のうちの栗林の割合と同値。
- 国全体に占めるA県の面積はP(A)
- A県の面積のうちの栗林の割合はP(栗林|A)
- 国全体に占めるA県の面積のうちの栗林の割合はP(A)✖P(栗林|A)
- A県の面積が0.2でそのうち60%が栗林だったら、0.2 ✖ 0.6
- これで、P(A,栗林)がわかった。
- P(栗林)は個別に集計するしかない。P(A,栗林) + P(B,栗林) + P(C,栗林) = P(栗林)
- B県の面積が0.32でそのうち、25%が栗林だったら、P(B,栗林) = 0.32 ✖ 0.25
- C県の面積が0.48でそのうち、25%が栗林だったら、P(C,栗林) = 0.48 ✖ 0.25
- P(A,栗林) + P(B,栗林) + P(C,栗林) = 0.2 ✖ 0.6 + 0.32 ✖ 0.25 + 0.48 ✖ 0.25 = P(栗林)
- P(A,栗林)/ P(栗林) = 0.2 ✖ 0.6 / (0.2 ✖ 0.6 + 0.32 ✖ 0.25 + 0.48 ✖ 0.25 ) = 0.375
2.1.4 割合が画一的な場合 (独立性の練習)
どの県でも、住宅が30%、栗林が20%、工場が50%だとすると、 - P(住宅|A) = P(住宅|B) = P(住宅|C) = 0.3 = P(住宅) - つまり、P(用途|県) = P(用途)P(県) -ということは、P(A|住宅) = P(B|住宅) = P(C|住宅)