はじめに
ゼミで,以下の本を読むことになりました.
この『パターン認識と機械学習』という本は少し古いですが,機械学習の勉強本として超有名です.本格的に機械学習を勉強していきたいひとは,読んでおくべき一冊という感じです.
せっかくなので,この本で勉強したことを,当ブログにまとめていこうと思っています.
ちなみに,『パターン認識と機械学習』は,2020年6月現在では,英語版がインターネットに公開されています(以下のリンク).
また,読む前に,以下のスライドを見ると面白いと思います.
面白いスライドでした.
筆者は途中でこのスライドを見つけ,参考にさせて頂きましたが,読む前に見ておくと『パターン認識と機械学習』を読むモチベーションになると思います.
この『パターン認識と機械学習』は(上下巻合わせて)800ページ近くあり,結構読むのは大変ですが,
当ブログで,もう少し簡単にまとめて行きたいと思います.
しかし,しっかり勉強したいひとは,やはり本を読むべきでしょう.
『パターン認識と機械学習』イントロダクション
この本のイントロダクションについてまとめます.
この本の概要
これは理論物理学者でもあるビショップによって書かれたパターン認識と機械学習についての本です.
パターン認識の重要性
たとえば,
・Tycho Brahe(テェコ・ブラーエ)による天文観測記録の規則性によってJohannes Kepler(ヨハネス・ケプラー)が惑星運動の法則を経験的に導き出した.後に古典力学発展のヒントになった.
・原子スペクトルの規則性は量子力学の発展と実証に使われた.
このように,昔の物理学者や数学者が測定してきたデータから人の手によって規則性を見出し,現在の科学の発展につながっています.
これから,データのパターン認識は新しい原則を発見する手掛かりになることが分かります.
パターン認識分野の目的
上で述べたように,古典力学や量子力学につながるような重大な規則性は,長い時間をかけ,人の手と目によって発見されてきました.
しかしながら,人の手と目による経験的な発見は,時間や労働力のコストが高いです.
そこで,人の手ではなく,コンピュータによって機械的に規則性を見つけようと,パターン認識分野という研究分野が盛んに行われています.
・コンピュータを用いて自動的にデータの規則性を発見する
・異なるカテゴリーにデータを分類するなど,規則性を使用する
パターン認識に機械学習を用いる
この本では,パターン認識の方法としての機械学習について述べています.
(この本は,パターン認識に限らず,機械学習全般についての本です)
例えば,以下のような手書きの数字が書かれた画像データを用意して,その数字を当てることを考えます.

数字を予測するとき,人の手によって数字の特徴で判断するようなルールをつくってもいいですが(丸みがあるなら3だとか,棒っぽいのは1だとか),それだとルールをかなり細かく決めなければなりませんし,精度も上がりません.
したがって,あまり細かくルールを作らなくてもいいように,機械学習を用いましょう,ということです.
機械学習関連の語句
この本を読み進めていくためにも,いくつかの基本的なキーワードを紹介します.
Training set(訓練集合) …モデルパラメータの調整のための用意されたデータ集合.いわゆる訓練データ集合.入力データと以下の正解データはセット.
Target vector(ターゲットベクトル) …トレーニングデータに対する答え.正解データ.
Training,Learning(トレーニング,学習) …入力データに対してターゲットと同じ値を出力する関数を決定すること.
Test set(テスト集合)…(トレーニングではない)新しい入力データ.
Generalization(汎化)…テストデータに対しても正しく識別する能力
Preprocessed,Feature extraction …データの前処理.パターン認識をしやすくする.新しいテストデータの前処理はトレーニングデータの前処理と同じにしなければならない.
機械学習は,大きく分けて以下の3つ(教師あり学習,教師なし学習,強化学習)に分類されます.
Supervised learning(教師あり学習)…入力に対してターゲット(正解)ありの問題
例)Classification…分類問題
例)Regression…回帰問題
Unsupervised learning(教師なし学習)…正解(ターゲット)が与えられていない問題
例)Clustering…似たような特徴をもつデータをグルーピングする
例)Density estimation…分布を決定する
例)Visualization…高次元から2次元または3次元にデータを射影する
Reinforcement learning…強化学習.与えられた状況下で,最適な(報酬が最大となるような)行動を発見する
特徴)Credit assignment problem…貢献度分配問題.今貰う報酬は過去の行動の結果に基づく
特徴)Exploration…未知の状態や行動(列)をとる
特徴)Exploitation…学習済みの知識のもと最大の報酬が得られる行動(列)をとる
それでは,次回から本章に入っていきます.
第1回は,1.1章の多項式フィッティングです.
コメント