パターン認識と機械学習の勉強ノート【1.2 確率理論 Part 1】

深層学習を学ぶシリーズ

こちらの『パターン認識と機械学習』を読んで,勉強したことをまとめていきます.

前回は,1.1節の多項式フィッティングについてまとめました.

今回は,1章1.2の確率理論についてです.

導入と本節の概要

確率理論の基礎は機械学習に必須の基礎数学であり,確率論は統計的なデータを取り扱うには最高の道具です.

この1.2節では,以下の事柄を学びます.

1.2節の内容

確率の基礎 ← この記事の内容(以下の3つは次の記事で)

・古典確率とベイズ確率の違い

・尤度関数最大化によるフィッティング

・入力に対して,出力がどれくらいの曖昧さで答えを出すか(ベイズ主義)

確率の基礎として,同時確率条件付き確率分散共分散などを紹介し,確率に纏わる公式を用意した後,

古典確率(頻度論)とベイズ確率(ベイズ主義)の違いを説明します.

また,尤度関数について述べ,それを用いたフィッティングについて述べます.前回のフィッティングで用いた,二乗誤差関数の正体は,ある確率分布の対数尤度関数となっており,確率理論が重要であることがうかがえます.

最後に,ベイズ主義に基づき,新しい入力データを与えた時に,答えはどれほどの確率でどのように分布するのかを計算する方法について述べます.

つまり,「答えはこの辺にありそうだな」というものを定量化します.

この記事に全て書くと長くなってしまうので,Part 1(確率の基礎)とPart 2(それ以外)に分けて書いていきます.

確率理論の基礎

はじめの目標は,確率論の基礎公式である以下の式を求めることです.

※具体的な文字の定義については以下で説明していきます.

和の公式と積の公式

和の法則

    \[p(X)=\sum_{Y} p(X,Y)\]

積の法則

    \[p(X,Y) = p(Y|X)p(X)\]

この式を目指しながら確率理論について触れていき,これら式を用いてベイズの定理を求めます.

以下のように,x_i (i = 1, 2, ... M)の状態(値)をとる確率変数Xy_j (j = 1, 2, ... L)をとる確率変数Yがある場合を考えます.

確率変数XX=x_iの状態をとるとき,p(X=x_i)と表すことにします.

また,上図のように,X=x_iの状態になる場合の数は,c_iであるとします.

同様に,確率変数YY=y_jの状態になる場合の数は,r_jであるとします.

そして,X=x_iY=y_jが同時に起きるとき,その場合の数をn_{ij}とします.

X=x_iY=y_jの組み合わせの数(すべての場合の数)が,N個あるとき,

X=x_iY=y_jが同時に起きる確率p(X=x_i, Y=y_j)は,

    \[p(X=x_i, Y=y_j) = \frac{n_{ij}}{N}\]

となります.このp(X=x_i, Y=y_j)同時確率といいます.

ここで,上図より,p(X=x_i)=\frac{c_i}{N}であり,c_i = \sum_{j}n_{ij}なので,

    \[p(X=x_i)=\frac{c_i}{N}=\sum_{j}\frac{n_{ij}}{N}=\sum_{j}p(X=x_i, Y=y_j)\]

となります.このp(X)=\sum_{Y} p(X,Y)の関係を和の法則と呼びます.

和の法則(周辺確率)

    \[p(X)=\sum_{Y} p(X,Y)\]

Yについて和をとっているので,p(X)=\sum_{Y} p(X,Y)X周辺確率ともいいます.

次に,条件付き確率について述べます.

X=x_iと決まった後に,Y=y_jが起きる確率は条件付き確率と呼ばれ,p(Y=y_j|X=x_i)と書きます.

図を見てわかるように,p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}c_iの場合の数からn_{ij}パターン.X=x_iと決まった時点で,起こりうる場合の数がc_iになると考えればわかりやすい)なので,同時確率は次のように変形できます.

    \[p(X=x_i, Y=y_j) = \frac{n_{ij}}{N}=\frac{n_{ij}}{c_i} \times \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)\]

このp(X, Y)=p(Y|X)p(X)の関係式を積の法則といいます.

積の法則

    \[p(X, Y)=p(Y|X)p(X)\]

意味としては,同時確率p(X, Y)は「Xが起き(p(X)),さらにXが起きたうえでYが起きる(p(Y|X))」確率と考えることができます.

ベイズの定理

さて,確率論における和の法則と積の法則を導いたので,次にベイズの定理を導きます.

同時確率について,以下が成り立ちます.

    \[p(X, Y)=p(Y,X)\]

2つの事象が同時に起きるのが同時確率なので,これが成り立つのは当たり前ですね.

この両辺について積の法則を書くと,

    \[p(X, Y)=p(Y|X)p(X)\]

    \[p(Y, X)=p(X|Y)p(Y)\]

となり,これらが等しいので,p(X|Y)p(Y)=p(Y|X)p(X)より,

ベイズの定理

    \[p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\]

となります.この条件付き確率の関係式をベイズの定理といいます.

この式の分母p(X)は,和の法則と積の法則からp(X)=\sum_{Y}p(X|Y)p(Y) と書けるので,p(Y|X)を求めるのに必要なものはp(X|Y)p(Y)の2つとなります.

この分母はp(Y|X)に対する規格化定数(全確率を1にするためのもの)として考えることもできます.

ちなみに,後でも説明しますが,ベイズの定理において,上式p(Y)事前確率p(Y|X)事後確率と言います.Xの情報が分かったときに,その情報p(X)p(X|Y)を用いてp(Y|X)(事後確率)を求めるのがベイズの定理です.

確率論の問題例

以下のように,

赤の箱にリンゴが2個,オレンジが6個,

青の箱にリンゴが3個,オレンジが1個

入っていて,ここから果物をひとつ取り出すことを考えます.

ただし,箱の色は確認せず,目をつぶって果物を取り出します.赤の箱から取り出す確率は40%,青の箱から取り出す確率は60%であることは分かっています.

つまり,赤の箱を選ぶ確率p(B=r)=0.4,青の箱を選ぶ確率p(B=b)=0.6です.Bは箱(BOX)を意味し,rは赤(red),bは青(blue)を表します.

いまから求めていきたいのは,たとえば,「リンゴを取り出したときにその箱が赤色である確率p(B=r|F=a)のようなものです.

これは,果物を取った後に,箱の確率p(B|F)を求めるため,事後確率といいます.

それに対して,何も情報がないままの箱の確率p(B)事前確率といいます.

Fは果物(FRUITS)を意味します)

つまり,果物を取ったことで得られた情報によって,箱の色の確率が事前確率から事後確率への変化するということです.それを,ベイズの定理を使って求めていきます.

まず,赤い箱だけをみたとき(赤い箱という条件付き),リンゴを取り出す確率は,赤い箱には8個中2個リンゴが入っているので,p(a|r)=2/8=1/4です.

同様に,青の箱だけをみたとき,リンゴを取り出す確率は,p(a|b)=3/4です.

そして,リンゴを取り出す確率は,「赤の箱を選び,赤の箱からリンゴを取り出す確率」と「青の箱を選び,青の箱からリンゴを取り出す確率」の和なので,

    \[p(a)=p(a|r)p(r)+p(a|b)p(b)=\frac{1}{4} \frac{4}{10} + \frac{3}{4} \frac{6}{10}=\frac{11}{20}\]

これは,周辺確率p(a)=\sum_{B}p(a|B)p(B) となっています.

ベイズの定理

ベイズの定理

    \[p(B|F)=\frac{p(F|B)p(B)}{p(F)}\]

より,リンゴを取り出したときにその箱が赤である確率はp(r|a)=\frac{p(a|r)p(r)}{p(a)}なので,

    \[p(r|a)=\frac{p(a|r)p(r)}{p(a)}=\frac{\frac{1}{4} \frac{4}{10}}{\frac{11}{20}}=\frac{2}{11}\]

となります.

つまり,赤の箱を選ぶ確率は40%ですが,リンゴを取り出したことによって,選んだ箱が赤である確率は18%くらいになるということです.図を見てもらえばわかるように,赤の箱ではリンゴは出にくいですからね.

ここで,確率の重要な性質について触れておきます.

確率変数XYが独立であるとき,同時確率はp(X,Y)=p(X)p(Y)を満たします.

これと積の法則p(X, Y)=p(Y|X)p(X)を合わせて,p(Y)=p(Y|X)となります.

つまり,XYが独立であるなら,関係ない情報を取り入れただけなので,事前確率と事後確率は変わらないということです.

期待値,分散,共分散

f(x)期待値E[f(x)]は,以下のように定義されます.

期待値

    \[E[f(x)]=\sum_{x}p(x)f(x)\]

期待値は,確率p(x)で重み付けされたf(x)の平均ということができます.

また,事象yのもとでのf(x)条件付き期待値E[f(x)|y]は,以下のように書かれます.

条件付き期待値

    \[E[f(x)|y]=\sum_{x}p(x|y)f(x)\]

f(x)分散var[f(x)]は,以下のように定義されます.

分散

    \[var[f(x)]=E[(f(x)-E[f(x)])^2]\]

分散は,f(x)とその期待値E[f(x)]の差の(2乗)の期待値となっており,f(x)がどれだけばらついているかを見る指標となっています.

色々な本で色々な形の期待値や分散が出てきますが,ここに示したのが最も一般的な形です.

また,分散は以下のようにも変形できます.

    \[var[f(x)]=E[f(x)^2]-E[f(x)]^2\]

x, y共分散は,以下のように定義されます.

共分散

    \[cov[x,y] = E_{x,y}[\{x-E[x]\}\{y-E[y]\}]\]

また,cov[x,y] = E_{x,y}[x,y]-E[x]E[y]とも書けます.

共分散は,x, yの相関を表します.

・共分散が正のときには,xが大きいときyも大きい,つまりx, yに正の相関があります.

・共分散が0のときには,xyにはあまり関係がないと見なすことができます.

・共分散が負のときには,xが大きいときyは小さい,つまりx, yに負の相関があります.

まとめ

以下の,確率理論における基礎法則について述べました.

和の公式と積の公式

和の法則

    \[p(X)=\sum_{Y} p(X,Y)\]

積の法則

    \[p(X,Y) = p(Y|X)p(X)\]

p(X,Y)同時確率

p(Y|X)条件付き確率

ベイズの定理

    \[p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\]

p(Y)事前確率

p(Y|X)事後確率

期待値,分散,共分散

期待値

    \[E[f(x)]=\sum_{x}p(x)f(x)\]

条件付き期待値

    \[E[f(x)|y]=\sum_{x}p(x|y)f(x)\]

分散

    \[var[f(x)]=E[(f(x)-E[f(x)])^2]\]

共分散

    \[cov[x,y] = E_{x,y}[\{x-E[x]\}\{y-E[y]\}]\]

ちなみに,確率変数が連続値を取るとき,以下のような形で書きます.

確率変数が連続

和の法則

    \[p(x)= \int p(x,y)dy\]

積の法則

    \[p(x,y)=p(y|x)p(x)\]

期待値

    \[E[f(x)]=\int p(x)f(x)dx\]

p(x)確率密度で,x~x+dxに含まれる確率を表します.

長くなってしまったので,確率理論編については今回のPart 1と次回のPart 2の2部に分けます.

今回は基礎的な話でしたが,次回はもう少しだけベイズの意味について考えていきます.

コメント

タイトルとURLをコピーしました