パターン認識と機械学習の勉強ノート【イントロダクション】

深層学習を学ぶシリーズ

はじめに

ゼミで,以下の本を読むことになりました.

この『パターン認識と機械学習』という本は少し古いですが,機械学習の勉強本として超有名です.本格的に機械学習を勉強していきたいひとは,読んでおくべき一冊という感じです.

せっかくなので,この本で勉強したことを,当ブログにまとめていこうと思っています.

ちなみに,『パターン認識と機械学習』は,2020年6月現在では,英語版がインターネットに公開されています(以下のリンク).

また,読む前に,以下のスライドを見ると面白いと思います.

面白いスライドでした.

筆者は途中でこのスライドを見つけ,参考にさせて頂きましたが,読む前に見ておくと『パターン認識と機械学習』を読むモチベーションになると思います.

この『パターン認識と機械学習』は(上下巻合わせて)800ページ近くあり,結構読むのは大変ですが,

当ブログで,もう少し簡単にまとめて行きたいと思います.

しかし,しっかり勉強したいひとは,やはり本を読むべきでしょう.

『パターン認識と機械学習』イントロダクション

この本のイントロダクションについてまとめます.

この本の概要

これは理論物理学者でもあるビショップによって書かれたパターン認識と機械学習についての本です.

パターン認識の重要性

データのパターンを研究することは基本的な問題で,大きな発見につながることがある

たとえば,

データのパターンよって生まれた発見

Tycho Brahe(テェコ・ブラーエ)による天文観測記録の規則性によってJohannes Kepler(ヨハネス・ケプラー)が惑星運動の法則を経験的に導き出した.後に古典力学発展のヒントになった.

原子スペクトルの規則性は量子力学の発展と実証に使われた.

このように,昔の物理学者や数学者が測定してきたデータから人の手によって規則性を見出し,現在の科学の発展につながっています.

これから,データのパターン認識は新しい原則を発見する手掛かりになることが分かります.

パターン認識分野の目的

上で述べたように,古典力学や量子力学につながるような重大な規則性は,長い時間をかけ,人の手と目によって発見されてきました.

しかしながら,人の手と目による経験的な発見は,時間や労働力のコストが高いです.

そこで,人の手ではなく,コンピュータによって機械的に規則性を見つけようと,パターン認識分野という研究分野が盛んに行われています.

パターン認識の目的

・コンピュータを用いて自動的にデータの規則性を発見する

・異なるカテゴリーにデータを分類するなど,規則性を使用する

パターン認識に機械学習を用いる

この本では,パターン認識の方法としての機械学習について述べています.

(この本は,パターン認識に限らず,機械学習全般についての本です)

例えば,以下のような手書きの数字が書かれた画像データ\mathbf xを用意して,その数字を当てることを考えます.

数字を予測するとき,人の手によって数字の特徴で判断するようなルールをつくってもいいですが(丸みがあるなら3だとか,棒っぽいのは1だとか),それだとルールをかなり細かく決めなければなりませんし,精度も上がりません.

したがって,あまり細かくルールを作らなくてもいいように,機械学習を用いましょう,ということです.

機械学習関連の語句

この本を読み進めていくためにも,いくつかの基本的なキーワードを紹介します.

Training set(訓練集合) …モデルパラメータの調整のための用意されたデータ集合.いわゆる訓練データ集合.入力データと以下の正解データはセット.

Target vector(ターゲットベクトル) …トレーニングデータに対する答え.正解データ.

Training,Learning(トレーニング,学習) …入力データに対してターゲットと同じ値を出力する関数を決定すること.

Test set(テスト集合)…(トレーニングではない)新しい入力データ.

Generalization(汎化)…テストデータに対しても正しく識別する能力

Preprocessed,Feature extraction …データの前処理.パターン認識をしやすくする.新しいテストデータの前処理はトレーニングデータの前処理と同じにしなければならない.

機械学習は,大きく分けて以下の3つ(教師あり学習,教師なし学習,強化学習)に分類されます.

Supervised learning(教師あり学習)…入力に対してターゲット(正解)ありの問題

例)Classification…分類問題

例)Regression…回帰問題

Unsupervised learning(教師なし学習)…正解(ターゲット)が与えられていない問題

例)Clustering…似たような特徴をもつデータをグルーピングする

例)Density estimation…分布を決定する

例)Visualization…高次元から2次元または3次元にデータを射影する

Reinforcement learning…強化学習.与えられた状況下で,最適な(報酬が最大となるような)行動を発見する

特徴)Credit assignment problem…貢献度分配問題.今貰う報酬は過去の行動の結果に基づく

特徴)Exploration…未知の状態や行動(列)をとる

特徴)Exploitation…学習済みの知識のもと最大の報酬が得られる行動(列)をとる

それでは,次回から本章に入っていきます.

第1回は,1.1章の多項式フィッティングです.

コメント

タイトルとURLをコピーしました