PrecisionとRecallについて(はじパタ第3章)
はじめに
クラス分類の精度を測るために用いられる尺度の一つとしてRecallとPrecisionが存在します。
RecallとPrecisionについては、はじパタの第三章で詳しく解説されています。
自分なりにかなり噛み砕いて記事にしてみました。
RecallとPrecisionとは
みかんについてWebで検索する場合を考えます。世の中にみかんに関するページが5件存在しているとします。
検索をしてみると6件のページがヒットしました。そのうち3件がみかんに関するページ、3件がぽんかんに関するページでした。
この検索システムの精度をRecallとPrecisionを用いて評価すると、
Recall = (検索結果のうちの正解) / (全体の正解)
= 3/5
= 0.6
(全正解のうちどれくらいシステムが拾ってきているか?)Precision = (検索結果のうちの正解)/(検索結果数)
= 3/6
= 0.5
(拾ってきた結果のうちどれくらいが正解か?)
したがって、 Recallは検索の網羅性について評価している指標で、
Precisionは検索の正確性について評価している指標となっています。
PrecisionとRecallのトレードオフについて
RecallとPrecisionはトレードオフの関係にあります。
検索結果の確信度が高い順に以下のように並べたとします。
検索結果の確信度とは、検索システムがそのWebページがどれくらいの確信度でみかんのページであると思っているか、ということを表しています。
確信度 | みかん/ぽんかん | Recall | Precision |
---|---|---|---|
0.9 | みかん | 1/5 | 1/1 |
0.8 | みかん | 2/5 | 2/2 |
0.75 | ぽんかん | 2/5 | 2/3 |
0.6 | みかん | 3/5 | 3/4 |
0.5 | ぽんかん | 3/5 | 3/5 |
0.4 | ぽんかん | 3/5 | 3/6 |
0.36 | みかん | 4/5 | 4/7 |
.... | .... | .... | .... |
確信度の閾値を下げていけば、Recallが上昇し、Precisionが低下して行く様子が上の表からわかるかと思います。先ほどの検索システムでは確信度の閾値は、0.36から0.4の間に設定されていました。
PR曲線とは
Recallを横軸にPrecisionを縦軸にして、このトレードオフの関係を図示したのがPR曲線です。
したがってPR曲線は右肩下がりになります。
上のPrecisionとRecallをグラフにすると以下のようになります。
まとめ
今回はかなり噛み砕いてPrecisionとRecallについて説明してみました。