Designated Survivor in The Era of Artificial Intelligence

備忘録的なブログです。主に統計学・機械学習の技術について学習したことをまとめます。

はじめてのパターン認識 第1章

はじパタについて

機械学習を勉強するものにとってもはやバイブルとなっている”はじめてのパターン認識/平井有三著"。
各所でおすすめされている良著ですが、ざっと読んだ感じでは初めて機械学習を勉強するにはすこし難易度が高い気もします。
ただ勉強会等で使用された各種資料が多く公開されているので、それらで不足分を適宜補いつつ学習をすすめていきたいと思います。
第1章では、パターン認識とはそもそも何であるかについて概説されています。短い章なので、さらっとまとめます。

1.1 パターン認識について

券売機のコイン識別を例に、パターン認識とはどのような問題を扱うものであるかを解説しています。
本節のポイントは、
1. パターン認識は特徴抽出と識別規則の適用の2段階からなる。
2. 特徴抽出で特徴ベクトルを作成し、それに識別規則を適用して分類を行う。
3. 本書では2段階目の識別規則の適用と学習を扱う。(特徴量エンジニアリングなどの話題は扱われない)

1.2 特徴の型

識別に用いられる特徴として、定性的特徴と定量的特徴があります。名義尺度・順序尺度・比例尺度・間隔尺度についてそれぞれ説明されます。
名義尺度と順序尺度は簡単に理解できますが、比例尺度と間隔尺度については一瞬、ん?となったので簡単に整理します。

比例尺度と間隔尺度の違いは原点の位置を変更しても意味が変わるか否かです。

間隔尺度の場合は原点の位置を変更しても意味は変わりません。例えば、0~100点で採点される数学のテストを考えます。
Aさんの点数は50点、Bさんの点数は90点、Cさんの点数は30点だったとします。それぞれの点数に対して100点を足してAさん150点、Bさん190点、Cさん130点にしてもその点数が表している情報は不変です。

一方で比例尺度の場合は原点の位置を変更すると数値の意味が変わってしまいます。
体重がそれぞれAさん50kg、Bさん70kg、Cさん90kgだった場合、それぞれに100を足したらまったく別の情報となってしまいます。

このように原点の位置をずらしても数値の意味が変わらないか否かが間隔尺度と比例尺度の違いです。

1.3 特徴ベクトル空間と次元の呪い

この章を読むまで次元の呪いとは、次元が増えるごとに計算量が指数的に増加してしまうことだと思っていました。

本章で説明される次元の呪いとは、次元が増えるごとに未知の関数を学習するためのデータ量が指数関数的に増加してしまうことです。

例として手書き文字認識が挙げられています。手書き文字認識で用いられる16*16ピクセルの画像は256次元のベクトルとして表現されます。
それぞれの次元が16段階の階調を持つ場合、256次元の各軸が16段階の区間を持つことになり、全体として16256区間存在することになります。
1つのデータ点はそのうちの1区間のみを占めることになるので、学習には大量のデータが必要になります。

まとめ

はじめて技術ブログを書きました。不備がありましたら修正いたします。ご指摘いただければ幸いです。