Designated Survivor in The Era of Artificial Intelligence

備忘録的なブログです。主に統計学・機械学習の技術について学習したことをまとめます。

PrecisionとRecallについて(はじパタ第3章)

はじめに

クラス分類の精度を測るために用いられる尺度の一つとしてRecallとPrecisionが存在します。
RecallとPrecisionについては、はじパタの第三章で詳しく解説されています。
自分なりにかなり噛み砕いて記事にしてみました。

RecallとPrecisionとは

みかんについてWebで検索する場合を考えます。世の中にみかんに関するページが5件存在しているとします。
検索をしてみると6件のページがヒットしました。そのうち3件がみかんに関するページ、3件がぽんかんに関するページでした。

この検索システムの精度をRecallとPrecisionを用いて評価すると、

  • Recall = (検索結果のうちの正解) / (全体の正解)
    = 3/5
    = 0.6
    (全正解のうちどれくらいシステムが拾ってきているか?)

  • Precision = (検索結果のうちの正解)/(検索結果数)
    = 3/6
    = 0.5
    (拾ってきた結果のうちどれくらいが正解か?)

したがって、 Recallは検索の網羅性について評価している指標で、

Precisionは検索の正確性について評価している指標となっています。

PrecisionとRecallのトレードオフについて

RecallとPrecisionはトレードオフの関係にあります。
検索結果の確信度が高い順に以下のように並べたとします。
検索結果の確信度とは、検索システムがそのWebページがどれくらいの確信度でみかんのページであると思っているか、ということを表しています。

確信度 みかん/ぽんかん Recall Precision
0.9 みかん 1/5 1/1
0.8 みかん 2/5 2/2
0.75 ぽんかん 2/5 2/3
0.6 みかん 3/5 3/4
0.5 ぽんかん 3/5 3/5
0.4 ぽんかん 3/5 3/6
0.36 みかん     4/5 4/7
.... .... .... ....

確信度の閾値を下げていけば、Recallが上昇し、Precisionが低下して行く様子が上の表からわかるかと思います。先ほどの検索システムでは確信度の閾値は、0.36から0.4の間に設定されていました。

PR曲線とは

Recallを横軸にPrecisionを縦軸にして、このトレードオフの関係を図示したのがPR曲線です。 したがってPR曲線は右肩下がりになります。
上のPrecisionとRecallをグラフにすると以下のようになります。

f:id:KT_taroha:20190319100518p:plain

まとめ

今回はかなり噛み砕いてPrecisionとRecallについて説明してみました。