【深層学習】深層学習に必要な数学まとめ 【No.2 確率 編】

テクノロジー

こんにちは!理系リアルタイムへようこそ!

機械学習を学ぼうとしている人にとって必要となる線形代数の基本を【深層学習】深層学習に必要な数学まとめ 【No.1 線形代数 編】にまとめました。

そして今回は、数学の基礎第2弾、確率編です。

統計量を扱い、不確実なものを対象におこなう機械学習には統計と確率論が必要となることは想像がつくのではないでしょうか。

本記事では、確率についての基本的な定義について触れた後、機械学習でよく使われる、いくつかの確率分布と確率論で扱われる関数を紹介し、確率論の基本であるベイズ則について述べようと思います。

確率論

確率論は自然界の現象を扱ううえで不可欠である。自然現象の出発点は素粒子の世界で、その域ではすでに確率的にしか扱えない。

工学の世界でも、確率論はたびたび扱われる。例えば、デジタル的にしか観測できないロボットを評価するには確率的な分析を考慮にいれなければならない場合がある。機械学習においても、不確実な量、確率的な量を扱わぜるを得ない。

確率変数

確率変数とは、ある状態となる確率を決める変数である。例えば、あるサイコロの目が出る確率を考える場合、サイコロの目の数が確率変数となる得る。ただし、確率変数はサイコロの目のように離散的であっても、あるいは速度の値などの連続値であってもよい。

確率分布

確率変数に対して、その確率の分布を示すものを確率分布という。

確率質量関数

離散変数の確率分布を関数として表したものを確率質量関数という。

離散確率変数 \mathrm{x} のある状態 \mathrm{x} = x を取る確率を、P(\mathrm{x} = x) = P(x) と表す。

確率質量変数 P(x) は以下の性質を満たす。

P の定義域は、確率変数 \mathrm{x} が取り得る状態すべての集合である。

\forall\mathrm{x} \in x , 0 \leq P(x) \leq 1 を満たす。

・ 起こり得る確率をすべて足し合わせたものは必ず1になる。つまり、規格化条件 \sum P(x) = 1 を満たす。

確率密度関数

連続変数の確率分布を関数として表したものを確率密度関数という。

確率密度関数は、dx の範囲に存在する事象が起きる確率であり、 p(x) で表す。つまり、 dx の範囲内の事象がおきる確率は p(x)dx である。ここで、 x が単位を持つとき、確率密度関数 p(x) と確率質量関数 P(x) の単位は異なることに注意したい。

確率確率密度関数は以下の条件をみたす。

p の定義域は、確率変数 \mathrm{x} が取り得る状態すべての集合である。

\forall\mathrm{x} \in x , 0 \leq p(x) を満たす。

\int p(x)dx = 1 (規格化条件)

周辺確率

確率変数が2変数ある場合に、片方の確率変数にのみ依存する確率分布を求めたい場合がある。

たとえば、離散確率変数 \mathrm{x , y} において、その同時確率分布 P(\mathrm{x} = x, \mathrm{y} = y) がわかっている場合、P(x) は次のようにすれば求められる。

    \[P(x) = \sum_{y}P(x, y) \eqno(2.1)\]

確率変数が連続の場合は、以下のようになる。

    \[p(x) = \int p(x,y)dy \eqno(2.2)\]

条件付き確率

ある事象が起きたうえで、さらに別の事象が起きる確率を条件付き確率という。 \mathrm{x} = x が起きた条件のうえで、\mathrm{y} = y が起きる確率(条件付き確率)は次のように表す。

    \[P(\mathrm{y} = y | \mathrm{x} = x) = \frac{P(\mathrm{y} = y , \mathrm{x} = x)}{P(\mathrm{x} = x)} \eqno(2.3)\]

ただし、条件確率は P(\mathrm{x} = x) \neq 0 のときのみ定義される。

条件確率の例:

サイコロを1個ふり、出目を確認してからもう1個サイコロをふる場合を考える。最初のサイコロの目を \mathrm{x} 、2個目のサイコロの目を \mathrm{y} とする。

1個目のサイコロの目が1のとき( \mathrm{x} = 1 )、後に投げた目のが \mathrm{y} = 1 となる条件付き確率は、

    \[P(\mathrm{y} = 1 | \mathrm{x} = 1) = \frac{\frac{1}{36}}{\frac{1}{6}} = \frac{1}{6} \eqno(2.4)\]

となる。

条件付き確率の連鎖率

確率変数が複数ある場合、同時確率分布はある1つの変数に対する条件付き確率を使って表すことができる。

たとえば、確率変数 \mathrm{a,b,c} に対する同時確率分布 P(\mathrm{a,b,c}) は式(2.3)を用いれば次のように変形できる。

    \[\begin{split}P(\mathrm{a,b,c}) &= P(\mathrm{a|b,c})P(\mathrm{b,c}) \\&=P(\mathrm{a|b,c})P(\mathrm{b|c})P(\mathrm{c})\end{split} \eqno(2.5)\]

独立・条件付き独立

確率分布が次のように別々の確率変数だけでかける確率分布の積でかけるとき、この2つの確率変数は独立であるという。

    \[p(x,y) = p(x)p(y) \eqno(2.6)\]

また、以下のように、\mathrm{x,y} の条件付き確率分布が、すべての \mathrm{z} において式の(2.6)のように因数分解されるならば、 \mathrm{x}\mathrm{y}条件付き独立であるという。

    \[p(x,y | z) = p(x | z)p(y | z ) \eqno(2.7)\]

期待値・分散・共分散

・期待値

期待値は、確率分布 P(x) が与えられ得たもとで、f(x) の値が平均的にどれくらいの値をとるかということを示す。期待値は \mathbb{E} 、各値 x において取りえる値 f(x) にその確率 P(x) を重みとして掛け合わせたものを足し合わせたものとして表す。

    \[\mathbb{E} = \sum_{x}P(x)f(x) \eqno(2.8)\]

連続変数の場合は次のようになる。

    \[\mathbb{E} = \int p(x)f(x)dx \eqno(2.9)\]

期待値は、線形性をもつ。つまり、任意の定数 \alpha, \beta を用いて

    \[\mathbb{E}[\alpha f(x) + \beta g(x)] = \alpha\mathbb{E}[f(x)] + \beta\mathbb{E}[g(x)] \eqno(2.10)\]

と表すことができる。

・分散

関数 f(x)ばらつきの度合いを示すのに、分散が使われる。

分散は各 f(x) の値とその期待値 \mathbb{E}[f(x)] の差の関数である。

    \[Var(f(x)) = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2] \eqno(2.11)\]

分散が小さいときは、期待値のまわりに f(x) の値が密集していることを意味する。

値がすべてわかっている場合は、分散は平均値 \bar{f}(x) を用いて

    \[Var(f(x)) = \frac{1}{n}\sum_{x}(f(x) - \bar{f}(x))^2} \eqno(2.12)\]

とかける。また、分散の平方根は標準偏差と呼ばれる。

・共分散

共分散は、2つの変数の大きさと、それらの値がどの程度線形的に関係しているかを表す。

    \[Cov(f(x),g(x)) = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])(g(y) - \mathbb{E}[g(y)])] \eqno(2.13)\]

共分散の絶対値が意味するところは、値が変化しやすさであり、また絶対値が大きければ、その値がそれぞれの平均値から離れていることになる。

よく使われる確率分布

・ガウス分布(正規分布)

ガウス分布は多くの自然現象を再現することから、機械学習だけに限らず科学の世界でもっともよくつかわれる分布の形である。

ガウス分布は、次のような x = \mu を中心にピークをもつ関数である。

    \[\sqrt{\frac{1}{2\pi\sigma^2}}\exp\left(-\frac{1}{2\sigma^2}(x - \mu)^2\right) \eqno(2.14)\]

この分布はパラメータ \mu\sigma によって形が決まる。 \mu は分布の平均値(期待値)、 \sigma は標準偏差となっている。

図2.1 : ガウス分布。\sigma = 1, \mu = 0 の場合。当然、これを[-∞, ∞]の範囲で積分するとその面積は 1 になる。

・ラプラス分布

深層学習では、どこかでとがった確率分布が必要になる場合が多い。任意の点 x = \mu でとがった分布として、ラプラス分布がある。

    \[\frac{1}{2\gamma}\exp\left(-\frac{|x-\mu|}{\gamma}\right)\eqno(2.15)\]

・ベルヌーイ分布

ベルヌーイ分布は確率 \phi で1の値をとり、 1 - \phi の確率で0をとる分布である。

    \[P(x) = \phi^x(1-\phi)^{1-x} \eqno(2.16)\]

ここで、 P(x=1) = \phi , P(x=0) = 1-\phi である。

・ディラック分布

ディラックのデルタ関数 \delta(x) を用いて、ある一点に確率分布のピークが立つように表すことができる。

    \[p(x) = \delta(x-\mu) \eqno(2.17)\]

デルタ関数は次のような形をとる。

    \[\delta(x-\mu) = \left\{ \begin{array}{ll}     \infty & (x=\mu) \\     0 & (x \neq \mu)   \end{array} \right. \eqno(2.18)\]

つまり、デルタ関数は x=\mu でピークをもつ。また、デルタ関数を、ピークをもつ点を含んだ範囲で積分すると1になる。

以下に、デルタ関数の概形を示す。

図2.2 : デルタ関数。ただし、 \mu = 0

機械学習でよく使われる関数

・ロジスティックシグモイド関数

ロジスティックシグモイド関数は、ロジスティック回帰分析(分類問題)によく使われる。

    \[\sigma(x) = \frac{1}{1+\exp(-x)} \eqno(2.19)\]

ロジスティックシグモイド関数は、以下の図のようなステップ関数をなめらかにしたような概形をしており、その値域は (0, 1)であり、確率論的に扱いやすい。

図2.3 : ロジスティックシグモイド関数

また、シグモイド関数はニューラルネットワークにおける活性化関数として使われることがある。しかし現在では、ほとんどのニューラルネットワークの活性化関数として、ReLU関数というものが最もよく使われている。他の活性化関数については、他の記事にまとめる。

また、ロジスティックシグモイド関数の逆関数はロジット関数と呼ばれる。

・ソフトプラス関数

ソフトプラス関数は値域が(0, ∞)であり、ガウス関数のパラメータ生成、調整に利用される。

    \[\zeta = \log(1 + \exp(x)) \eqno(2.20)\]

ソフトプラス関数の概形を次に示す。

図2.4 : ソフトプラス関数

以下に、シグモイド関数 \sigma(x) とソフトプラス関数 \zeta のいくつかの性質を示す。

\frac{d}{dx}\sigma(x) = \sigma(x)(1 - \sigma(x))
 1-\sigma(x) = \sigma(-x)
 \log\sigma(x) = -\zeta(-x)
\frac{d}{dx}\zeta(x) = \sigma(x)
\forall x \in (0,1), \sigma^{-1}(x) = \log(\frac{x}{1-x}) (ロジット関数)
\forall x > 0, \zeta^{-1}(x) = \log(\exp(x)-1)
\zeta(x) = \int_{-\infty}^x \sigma(y) dy
 \zeta(x) - \zeta(-x) = x

ベイズ則

 P(\mathrm{y} | \mathrm{x}) が分かっていて、  P(\mathrm{x} | \mathrm{y}) を知りたいときがある。このとき、  P(\mathrm{x}) が分かれば、ベイズ則でこれを求めることができる。

    \[P (\mathrm{x} | \mathrm{y}) = \frac{P(\mathrm{x})P(\mathrm{y}|\mathrm{x})}{P(\mathrm{y})} = \frac{P(\mathrm{x})P(\mathrm{y}|\mathrm{x})}{\sum_{x} P(y|x)P(x)} \eqno(2.21)\]

P(\mathrm{y}) = \sum_{x} P(y|x)P(x) は条件付き確率の式(2.3)および周辺確率の式(2.1)から求められる。

ベイズ則は、条件付き確率P(\mathrm{y}|\mathrm{x}) とその条件の事象 \mathrm{x} が起きる確率の積が、2つの事象が同時に起きる確率であり、それは反対側( \mathrm{y} が条件となる側)から考えても等しいということを用いて導かれる。詳しくはhttps://mathtrain.jp/bayesを参照。そのほかにも、ベイズ則は確率論で重要な定理であり、多くの教材で紹介されている。


created by Rinker
¥5,060 (2019/12/15 09:49:42時点 楽天市場調べ-詳細)

確率編は以上です!間違い、ご指摘などありましたら、ご連絡いただけると幸いです。Twitter : ATS@ゆとりの生き残り

次回の【深層学習を学ぶシリーズ】では、【深層学習】深層学習に必要な数学まとめ 【No.3 情報理論 編】を掲載予定です!


【参考文献】
・深層学習 (株式会社ドワンゴ)Ian Goodfellow, Yoshua Bengio, Aaron Courville 【著】、岩澤有祐、鈴木雅大、中山浩太郎、松尾豊【監訳】

ベイズの定理の基本的な解説 | 高校数学の美しい物語 https://mathtrain.jp/bayes

コメント

タイトルとURLをコピーしました