「プログラミングのための確率統計」を読む : 2章

複数の確率変数のからみあい

  • 現実では複数の確率変数の関わりあいを解析する。
  • 絡まり合いを調べる必要がある。

からまりあいを理解するには、神様視点を使って

  • 同時確率、周辺確率、条件付き確率の3点セットを抑える
  • Bayesの公式も3点セットの応用
  • 独立性という概念もしっかりと。

2.1 各県の土地利用

2.1.1 県別、用途別の集計(同時確率と周辺確率)

神様視点なので、確率を面積として扱う。

f:id:stokutake:20150918223930p:plain

  • 全体の面積は1
  • A県とB県とC県がある
  • 住宅と栗林と工場ががある
  • P(A) + P(B) + P(C) = 1
  • P(住宅) + P(栗林) + P(工場) = 1
  • A県の住宅の面積は、P(A,住宅)とかく
2.1.2 県内、用途内の割合(条件付き確率の練習)

どの県が、工場を重視しているのかを考える。

  • 単純にP(A,工場)、P(B,工場)、P(C,工場)を比べるのはバッドアイディア。
  • 県の面積が違うのだから。
  • 各県の面積に占める工場の割合を比べればいい。
    • A県に占める工場の割合 = A県内の工場の面積 / A県の面積 = P(工場 | A)   
    • B県に占める工場の割合 = B県内の工場の面積 / B県の面積 = P(工場 | B)   
    • C県に占める工場の割合 = C県内の工場の面積 / C県の面積 = P(工場 | C)
2.1.3 割合を逆算するには (Bayesの公式の練習)

P(県)とP(用途|県)の一覧から、P(県 | 用途)を計算する。

  • P(A県|栗林)は、国全体の栗林のうち、A県が占める割合。つまり P(A,栗林)/ P(栗林)
  • P(A,栗林)とP(栗林)がわかれば、P(A県|栗林)がわかる。
  • P(A,栗林)は、A県の栗林の面積。国全体に占めるA県の面積のうちの栗林の割合と同値。
    • 国全体に占めるA県の面積はP(A)
    • A県の面積のうちの栗林の割合はP(栗林|A)
    • 国全体に占めるA県の面積のうちの栗林の割合はP(A)✖P(栗林|A)
    • A県の面積が0.2でそのうち60%が栗林だったら、0.2 ✖ 0.6
  • これで、P(A,栗林)がわかった。
  • P(栗林)は個別に集計するしかない。P(A,栗林) + P(B,栗林) + P(C,栗林) = P(栗林)
    • B県の面積が0.32でそのうち、25%が栗林だったら、P(B,栗林) = 0.32 ✖ 0.25
    • C県の面積が0.48でそのうち、25%が栗林だったら、P(C,栗林) = 0.48 ✖ 0.25
    • P(A,栗林) + P(B,栗林) + P(C,栗林) = 0.2 ✖ 0.6 + 0.32 ✖ 0.25 + 0.48 ✖ 0.25 = P(栗林)
  • P(A,栗林)/ P(栗林) = 0.2 ✖ 0.6 / (0.2 ✖ 0.6 + 0.32 ✖ 0.25 + 0.48 ✖ 0.25 ) = 0.375
2.1.4 割合が画一的な場合 (独立性の練習)

どの県でも、住宅が30%、栗林が20%、工場が50%だとすると、 - P(住宅|A) = P(住宅|B) = P(住宅|C) = 0.3 = P(住宅) - つまり、P(用途|県) = P(用途)P(県) -ということは、P(A|住宅) = P(B|住宅) = P(C|住宅)