【機械学習】 scikit-learn で精度・再現率・Ｆ値を算出する方法【Python】

公開日： 2020/06/25 : 機械学習 F-measure, Ｆ値, precision, python, recall, scikit-learn, 再現率, 混同行列, 精度

今回は、２クラス分類で Python の scikit-learn を使った評価指標である、精度（Precision）、再現率（Recall）、Ｆ値（F-measure）について調べてみました。

Contents

混同行列（Confusion matrix）

２クラス分類で、精度や再現率を求めるときに必要になってくるのが、TP、TN、FP、FN という概念です。これらの４つは分類時の結果からいずれかに分けられるのですが、それを表形式で表したのが混同行列（Confusion matrix）になります。

Confusion matrix diff:
      same  diff
same  1789   289
diff   259  1819

Confusion matrix diff:

same diff

same 1789 289

diff 259 1819

この例では、「same」「diff」の２クラス分類結果を表しています。

２クラス分類では、陽性（Positive）であるクラスを決めないといけません。

今回は「diff」クラスを陽性として扱っています。ちなみに残りのクラスを陰性クラスと呼びます。

scikit-learn で陽性クラスを指定するには、labels で与えます。

labels = ['same', 'diff']
cm = confusion_matrix(正解ラベル, 予測ラベル, labels=labels)

1 2	labels = ['same', 'diff'] cm = confusion_matrix(正解ラベル, 予測ラベル, labels=labels)

[‘same’, ‘diff’] として、後ろに与えたラベルが陽性クラスの扱いになるようです。

そうすると、以下のように４つの分類が割り当てられます。

          予測
          same diff
実際 same  TN   FP
     diff  FN   TP

予測

same diff

実際 same TN FP

diff FN TP

TP（True Positive）：陽性（diff）と予測した中で実際に陽性（diff）
TN（True Negative）：陰性（same）と予測した中で実際に陰性（same）
FP（False Positive）：陽性（diff）と予測した中で実際は陰性（same）
FN（False Negative）：陰性（same）と予測した中で実際は陽性（diff）

少し混乱しそうですが、True がつけば正解を表して、Positive が陽性クラスを表しています。

TP、TN、FP、FN の数をそれぞれ取得するには、flatten 関数を使います。

# TN, FP, FN, TPの個数を取得
tn, fp, fn, tp = cm.flatten()
print('tn...'+str(tn))
print('fp...'+str(fp))
print('fn...'+str(fn))
print('tp...'+str(tp))

# TN, FP, FN, TPの個数を取得

tn, fp, fn, tp = cm.flatten()

print('tn...'+str(tn))

print('fp...'+str(fp))

print('fn...'+str(fn))

print('tp...'+str(tp))

結果は、以下のようになります。

tn...1789
fp...289
fn...259
tp...1819

tn...1789

fp...289

fn...259

tp...1819

精度（Precision）

精度（Precision）は、適合率や正確性などともいいます。

精度は「識別器が陽性と判断したもののうち、正しく陽性と判断した割合」を表します。

式で書くと「TP/(TP+FP)」となります。

検索エンジンの例でたとえると、「ある検索ワードで検索してヒットした件数のうち、欲しい（正しい）ページの件数」といえます。

scikit-learn では precision_score で精度を算出することができます。

from sklearn.metrics import precision_score
print('Precision score: {:.2f}'.format(precision_score(正解ラベル, 予測ラベル))

1 2	from sklearn.metrics import precision_score print('Precision score: {:.2f}'.format(precision_score(正解ラベル, 予測ラベル))

正解ラベルは、テストデータの正解ラベル（same or diff）になります。

0 same
1 same
2 same
3 same
4 same
...
59993 diff
60005 diff
60016 diff
60027 diff
60043 diff
Name: class, Length: 4156, dtype: object

0 same

1 same

2 same

3 same

4 same

...

59993 diff

60005 diff

60016 diff

60027 diff

60043 diff

Name: class, Length: 4156, dtype: object

今回は Series 型になっています。

予測ラベルは、テストデータについて分類器が予測したラベル（same or diff）になります。

['same' 'diff' 'diff' ... 'diff' 'diff' 'diff']

1	['same' 'diff' 'diff' ... 'diff' 'diff' 'diff']

今回はリスト型になっています。

正解ラベルと予測ラベルは、Series型でもリスト型でもどちらでも問題ないようです。

以下のようなエラーがでました。

ValueError: pos_label=1 is not a valid label: array(['diff', 'same'], dtype='<U4')

1	ValueError: pos_label=1 is not a valid label: array(['diff', 'same'], dtype='<U4')

これは、ラベルデータ（pos_label）がデフォルトでは「1」となっているため、陽性のラベル（diff）を明示する必要があります。

print('Precision score: {:.2f}'.format(precision_score(正解ラベル, 予測ラベル, pos_label='diff')))

1	print('Precision score: {:.2f}'.format(precision_score(正解ラベル, 予測ラベル, pos_label='diff')))

結果は、無事に以下のように出力されました。

Precision score: 0.86

1	Precision score: 0.86

再現率（Recall）

再現率（Recall）は、網羅性を表している指標です。

「テストデータの実際に陽性のデータのうち、正しく陽性と判断した割合」を表します。

式で書くと「TP/(TP+FN)」となります。

検索エンジンの例で例えると、「あるワードで検索して、欲しい情報が手に入る件数のうち、実際に正しく得られた件数」といえます。

scikit-learn では recall_score で再現率を算出することができます。

from sklearn.metrics import recall_score
print('Recall score: {:.2f}'.format(recall_score(正解ラベル, 予測ラベル, pos_label='diff')))

1 2	from sklearn.metrics import recall_score print('Recall score: {:.2f}'.format(recall_score(正解ラベル, 予測ラベル, pos_label='diff')))

結果は以下のとおり。

Recall score: 0.88

1	Recall score: 0.88

Ｆ値（F-measure）

Ｆ値（F-measure）は、精度と再現率を合わせたものになります。

scikit-learn では f1_score でF値を算出することができます。

from sklearn.metrics import f1_score
print('F1 measure: {:.2f}'.format(f1_score(正解ラベル, 予測ラベル, pos_label='diff')))

1 2	from sklearn.metrics import f1_score print('F1 measure: {:.2f}'.format(f1_score(正解ラベル, 予測ラベル, pos_label='diff')))

結果は以下のとおり。

F1 measure: 0.87

1	F1 measure: 0.87

PREV: 【イーサリアム】公開鍵暗号について調べてみた。
NEXT: 【Pandas】 DataFrame と Series のデータ構造について【Python】

【機械学習】 scikit-learn で精度・再現率・Ｆ値を算出する方法【Python】

混同行列（Confusion matrix）

精度（Precision）

再現率（Recall）

Ｆ値（F-measure）

関連記事

【Weka】欠損データを自動的に補完するフィルタを使ってみた。

機械学習の手法のまとめ。

【PyTorch】GPUのメモリ不足でエラーになったときの対処方法。

【機械学習】 scikit-learn で不正解データを抽出する方法【Python】

【Chainer】手書き数字認識をしてみた【Deep Learning】

【PyTorch】ニューラルネットワークを構築する方法【NN】

【転移学習】学習済みVGG16 による転移学習を行う方法【PyTorch】

【機械学習・手法比較】決定木とナイーブベイズを比較してみた。

【Fashion-MNIST】ファッションアイテムのデータセットを使ってみた【TensorFlow】

【機械学習】パーセプトロン（Perceptron）について。

NEW ENTRY

カテゴリー

【機械学習】 scikit-learn で精度・再現率・Ｆ値を算出する方法【Python】

日々調べたこと思ったことをメモがわりに記録していきます。