こちらの『パターン認識と機械学習』を読んで,勉強したことをまとめていきます.
前回は,1.6節の情報理論についてまとめました.
今回は,2.1節の二値変数, 2.2節の多値変数です.
二章の概要
一章では確率理論の基礎について述べ,ガウス分布を用いたフィッティングについて述べましたが,問題によって確率分布モデルは色々の種類を使い分ける必要があります.
その色々な確率分布モデルを紹介するのが二章の主な目的です.
また,二章を通して,ガウス分布の一般的な性質について,各尤度関数に対するの事前分布は何かについても述べます.
この記事では,二値変数,多値変数に対する確率分布としてベルヌーイ分布や二項分布,ベータ分布,マルチヌーイ分布,ディレクレ分布を紹介します.
二値変数
ここでは例として,コインを投げて,表か出る確率,裏が出る確率みたいなものを考えて話を進めていきます.
二値変数について,
を表,
を裏だとし,
(表が出る確率)を,パラメータ
を用いて
とします.つまり,は表が出る確率そのものです.普通のコインなら,
です.
(裏が出る確率)は,表じゃない確率なので,
です.これらを考えると,コインを投げた時に
が出る確率は
となります.この確率分布をベルヌーイ分布と呼びます.を代入すると
なり,
を代入すると
になります.
ベルヌーイ分布に従うコインを回投げて,その表裏の結果を
(
は0か1)とすると,そのような結果(データ)が実現される確率は
となり,これはパラメータを与えた時にデータ
を与える確率なので,尤度関数です.尤度関数の意味については,https://atsblog.org/machine-pattern-1-2-2/を参照してください.
では,この尤度関数に関して,最尤推定していきます.つまり,このようなデータが実現されるようなパラメータはどんなものか?というものを計算していきます.
対数尤度は
となり,これが0となるときのパラメータは,
となります.つまり,ベルヌーイ分布に従うコインの表が出る確率はデータの平均値から求められるということになります.
また,表()が出る回数を
とすると,上式は
と表すことができます.表が出た回数さえ分かれば,尤度を最大化するような表が出る確率が分かるということです.
また,ベルヌーイ分布に従う事象が複数回起こったときの分布である,二項分布を紹介します.
二項分布は,以下のような分布です.
ただし,です.
これはベルヌーイ分布に従うコインを回投げた時に,
回表が出る確率分布モデルです.
二項分布の事前分布
しかしながら,このままの枠組みでは,コインを3回投げて表が3回出た時にとなり,このコインは必ず表を出すコインと予想してしまうことになります.これは我々の感覚からしたら「過剰適合」です.
このような過剰適合を少なくし,より感覚的な答えを出すために,に関しての共役事前分布を導入していきます.
(共役事前分布は,以前にも説明したように,事前分布と事後分布が同じ形になるような事前分布です)
二項分布の共役事前分布は,以下のような分布です.
の部分は
で積分したときに1となるための規格化定数です.
このベータ分布はの分布を表しています.
や
は定数パラメータです.
例えば,コインは0.5の確率で表が出そうなので,,
として以下の図の左のような分布を用意します(事前に分かっているとします).

この図の真ん中のグラフは,二項分布のの場合,つまり一回コインを投げて表が出る確率分布です.
さて,ベイズの定理
事後分布 尤度 × 事前分布
によって事後分布を計算すると,図の右のようなグラフになります.このようなベイズの定理による手続きを行うことで,尤度関数だけで考えていた時にはとなって直感からずれていたものが,事前分布の効果によって右図のような直感に分布に近づきます.
事前にの分布情報が分かっていれば,その情報と実際のデータから得られた尤度と合わせて分布を作ればそれっぽくなるということです.
そして,また新しいデータが手に入れば,そのデータから尤度を計算し,それまでに得られている事後分布を事前分布に用いて,あらたな事後分布を計算していけばよりそれっぽい分布が得られます.
ちなみに,事後分布(上図の右)の式は,二項分布とベータ分布をかけて規格化したものなので
となっており,確かに事前分布(ベータ分布)と同じ形になっています.です.
多値変数
さて,ここまででの2つの値を取る分布について述べました.ここでは,
の多値をとる変数に関する分布を扱います.
例としては,コインのような2つの事象しかないものではなく,サイコロのようないくつかの事象が起こりうるような問題を考えればよいでしょう.
ただし,などと明示的に書くのではなく,ここでは
を用いて
と書くことにします.
例えばN=6つの値を取るとき,を意味するものとして
(つまり
)と書きます.ただし,一度に起こる事象は
のどれかなので,
です.つまりの要素のうち一つだけが1で,それ以外は0です.
この条件の下で,パラメータを用いて,
が起きる分布は
です.ここで,です.ちなみに,
は
が起こる確率であり,いずれかの
が起きるので
です.
この個の値を取る事象を
回観測したとき(もちろん,毎回の
の値は違っても良い),それが起こる確率は
となります.
ここで,
はとなる回数,すなわち事象
が起こる回数を表します.
さて,2値変数のデータに対して最尤推定したときと同様に,ここでも最尤推定を行います.
ただし,今回は制約があるので,最大化する関数は
です.はラグランジュ定数です.これを
で微分して0とおくと,
が得られます.
また,ベルヌーイ分布に対して二項分布を用意したように,多値変数の事象を回繰り返た時の分布を用意します.
回試行したときに,事象
が
起こる確率は
これをマルチヌーイ分布といいます.
ただし,です.
また,事象が出た回数
を
について足し合わせれば
になります(
のうち必ず何かが起こるので).
マルチヌーイ分布の事前確率
マルチヌーイ分布を尤度としたときの,に関しての事前分布は次のディレクレ分布です.
ここで,です.
実際,マルチヌーイ分布とディレクレ分布の積をとると,事後分布は
となり,ディレクレ分布と同じ形になります.係数の
は規格化定数です.
まとめ
2値変数の事象が起こる確率分布
二項分布の事前分布はベータ分布
多値変数の事象が起こる確率分布
マルチヌーイ分布の事前分布はディレクレ分布
今回は2値変数,多値変数の分布について述べました.次回からはあらゆる分野で重要な分布であるガウス分布について述べていきます.
コメント