こちらの『パターン認識と機械学習』を読んで,勉強したことをまとめていきます.
前回は,1.1節の多項式フィッティングについてまとめました.
今回は,1章1.2の確率理論についてです.
導入と本節の概要
確率理論の基礎は機械学習に必須の基礎数学であり,確率論は統計的なデータを取り扱うには最高の道具です.
この1.2節では,以下の事柄を学びます.
・確率の基礎 ← この記事の内容(以下の3つは次の記事で)
・古典確率とベイズ確率の違い
・尤度関数最大化によるフィッティング
・入力に対して,出力がどれくらいの曖昧さで答えを出すか(ベイズ主義)
確率の基礎として,同時確率や条件付き確率,分散や共分散などを紹介し,確率に纏わる公式を用意した後,
古典確率(頻度論)とベイズ確率(ベイズ主義)の違いを説明します.
また,尤度関数について述べ,それを用いたフィッティングについて述べます.前回のフィッティングで用いた,二乗誤差関数の正体は,ある確率分布の対数尤度関数となっており,確率理論が重要であることがうかがえます.
最後に,ベイズ主義に基づき,新しい入力データを与えた時に,答えはどれほどの確率でどのように分布するのかを計算する方法について述べます.
つまり,「答えはこの辺にありそうだな」というものを定量化します.
この記事に全て書くと長くなってしまうので,Part 1(確率の基礎)とPart 2(それ以外)に分けて書いていきます.
確率理論の基礎
はじめの目標は,確率論の基礎公式である以下の式を求めることです.
※具体的な文字の定義については以下で説明していきます.
和の法則
積の法則
この式を目指しながら確率理論について触れていき,これら式を用いてベイズの定理を求めます.
以下のように,の状態(値)をとる確率変数
と
をとる確率変数
がある場合を考えます.

確率変数が
の状態をとるとき,
と表すことにします.
また,上図のように,の状態になる場合の数は,
であるとします.
同様に,確率変数が
の状態になる場合の数は,
であるとします.
そして,と
が同時に起きるとき,その場合の数を
とします.
と
の組み合わせの数(すべての場合の数)が,
個あるとき,
と
が同時に起きる確率
は,
となります.このを同時確率といいます.
ここで,上図より,であり,
なので,
となります.このの関係を和の法則と呼びます.
について和をとっているので,
は
の周辺確率ともいいます.
次に,条件付き確率について述べます.
と決まった後に,
が起きる確率は条件付き確率と呼ばれ,
と書きます.
図を見てわかるように,(
の場合の数から
パターン.
と決まった時点で,起こりうる場合の数が
になると考えればわかりやすい)なので,同時確率は次のように変形できます.
このの関係式を積の法則といいます.
意味としては,同時確率は「
が起き(
),さらに
が起きたうえで
が起きる(
)」確率と考えることができます.
ベイズの定理
さて,確率論における和の法則と積の法則を導いたので,次にベイズの定理を導きます.
同時確率について,以下が成り立ちます.
2つの事象が同時に起きるのが同時確率なので,これが成り立つのは当たり前ですね.
この両辺について積の法則を書くと,
となり,これらが等しいので,より,
となります.この条件付き確率の関係式をベイズの定理といいます.
この式の分母は,和の法則と積の法則から
と書けるので,
を求めるのに必要なものは
と
の2つとなります.
この分母はに対する規格化定数(全確率を1にするためのもの)として考えることもできます.
ちなみに,後でも説明しますが,ベイズの定理において,上式を事前確率,
を事後確率と言います.
の情報が分かったときに,その情報
や
を用いて
(事後確率)を求めるのがベイズの定理です.
確率論の問題例
以下のように,
赤の箱にリンゴが2個,オレンジが6個,
青の箱にリンゴが3個,オレンジが1個
入っていて,ここから果物をひとつ取り出すことを考えます.

ただし,箱の色は確認せず,目をつぶって果物を取り出します.赤の箱から取り出す確率は40%,青の箱から取り出す確率は60%であることは分かっています.
つまり,赤の箱を選ぶ確率,青の箱を選ぶ確率
です.
は箱(BOX)を意味し,
は赤(red),
は青(blue)を表します.
いまから求めていきたいのは,たとえば,「リンゴを取り出したときにその箱が赤色である確率」のようなものです.
これは,果物を取った後に,箱の確率を求めるため,事後確率といいます.
それに対して,何も情報がないままの箱の確率を事前確率といいます.
(は果物(FRUITS)を意味します)
つまり,果物を取ったことで得られた情報によって,箱の色の確率が事前確率から事後確率への変化するということです.それを,ベイズの定理を使って求めていきます.
まず,赤い箱だけをみたとき(赤い箱という条件付き),リンゴを取り出す確率は,赤い箱には8個中2個リンゴが入っているので,です.
同様に,青の箱だけをみたとき,リンゴを取り出す確率は,です.
そして,リンゴを取り出す確率は,「赤の箱を選び,赤の箱からリンゴを取り出す確率」と「青の箱を選び,青の箱からリンゴを取り出す確率」の和なので,
これは,周辺確率となっています.
ベイズの定理
より,リンゴを取り出したときにその箱が赤である確率はなので,
となります.
つまり,赤の箱を選ぶ確率は40%ですが,リンゴを取り出したことによって,選んだ箱が赤である確率は18%くらいになるということです.図を見てもらえばわかるように,赤の箱ではリンゴは出にくいですからね.
ここで,確率の重要な性質について触れておきます.
確率変数と
が独立であるとき,同時確率は
を満たします.
これと積の法則を合わせて,
となります.
つまり,と
が独立であるなら,関係ない情報を取り入れただけなので,事前確率と事後確率は変わらないということです.
期待値,分散,共分散
の期待値
は,以下のように定義されます.
期待値は,確率で重み付けされた
の平均ということができます.
また,事象のもとでの
の条件付き期待値
は,以下のように書かれます.
の分散
は,以下のように定義されます.
分散は,とその期待値
の差の(2乗)の期待値となっており,
がどれだけばらついているかを見る指標となっています.
色々な本で色々な形の期待値や分散が出てきますが,ここに示したのが最も一般的な形です.
また,分散は以下のようにも変形できます.
の共分散は,以下のように定義されます.
また,とも書けます.
共分散は,の相関を表します.
・共分散が正のときには,が大きいとき
も大きい,つまり
に正の相関があります.
・共分散が0のときには,と
にはあまり関係がないと見なすことができます.
・共分散が負のときには,が大きいとき
は小さい,つまり
に負の相関があります.
まとめ
以下の,確率理論における基礎法則について述べました.
和の法則
積の法則
は同時確率,
は条件付き確率
は事前確率,
は事後確率
期待値
条件付き期待値
分散
共分散
ちなみに,確率変数が連続値を取るとき,以下のような形で書きます.
和の法則
積の法則
期待値
※は確率密度で,
~
に含まれる確率を表します.
長くなってしまったので,確率理論編については今回のPart 1と次回のPart 2の2部に分けます.
今回は基礎的な話でしたが,次回はもう少しだけベイズの意味について考えていきます.
コメント