【機械学習】 scikit-learn で不正解データを抽出する方法【Python】

公開日： 2020/06/07 : 最終更新日：2020/12/25 機械学習 python, scikit-learn, 不正解データ, 抽出, 正解データ

Python の scikit-learn ライブラリを使って機械学習でテストデータを識別（２クラス分類）をしたときに、正解・不正解データを抽出する方法について紹介します。

scikit-learn で正解率を出したいのであれば、混合行列（confusion matrix）を出力すれば良いのですが、これだと正解・不正解データの数しか出力されません。

これだと、不正解データ（正しく識別できなかったデータ）にはどのような傾向があるかなどの分析ができないため、正解・不正解データを抽出したいなぁと思って調べてみました。

Contents

classifier.predict について

scikit-learn の「classifier.predict」関数にテストデータを与えると、識別結果（学習した識別器が判断したラベルデータ）がリストで返ってきます。

今回は「classifier.fit」関数で学習データを用いて既に学習済みの場合を想定しています。

py = classifier.predict( test_data_df )

1	py = classifier.predict( test_data_df )

２クラス分類でラベル「same」「diff」の場合の結果が以下のようになります。

['same' 'same' 'diff' 'diff' 'diff' 'same' 'same' 'same' 'same' 'same'
'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same'
'same' 'diff' 'diff' 'diff' 'same' 'same' 'diff' 'diff' 'same' 'diff'
'same' 'same' 'diff' 'diff' 'same' 'diff' 'diff' 'same' 'diff' 'same'
'diff' 'diff']

['same' 'same' 'diff' 'diff' 'diff' 'same' 'same' 'same' 'same' 'same'

'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same'

'same' 'diff' 'diff' 'diff' 'same' 'same' 'diff' 'diff' 'same' 'diff'

'same' 'same' 'diff' 'diff' 'same' 'diff' 'diff' 'same' 'diff' 'same'

'diff' 'diff']

これが、与えた全てのテストデータの識別結果となります。

テストデータのうち、正解ラベルが same のものを抽出して識別した結果を抽出したい場合は、以下のようにします。

py = classifier.predict( test_data_df [labels_test_data=='same'] )

1	py = classifier.predict( test_data_df [labels_test_data=='same'] )

labels_test_data は、テストデータのラベル（正解ラベル「same」or「diff」が並んだもの）となります。

テストデータのうち、正解ラベルが same のものを抽出して識別
['same' 'same' 'diff' 'diff' 'diff' 'same' 'same' 'same' 'same' 'same'
'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same'
'same']

テストデータのうち、正解ラベルが same のものを抽出して識別

['same' 'same' 'diff' 'diff' 'diff' 'same' 'same' 'same' 'same' 'same'

'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same' 'same'

'same']

一方、テストデータのうち、正解ラベルが diff のものを抽出して識別した結果を抽出したい場合は、以下のようにします。

py = classifier.predict(features_diff_test[labels_diff_test=='diff'])

1	py = classifier.predict(features_diff_test[labels_diff_test=='diff'])

テストデータのうち、正解ラベルが diff のものを抽出して識別
['diff' 'diff' 'diff' 'same' 'same' 'diff' 'diff' 'same' 'diff' 'same'
'same' 'diff' 'diff' 'same' 'diff' 'diff' 'same' 'diff' 'same' 'diff'
'diff']

テストデータのうち、正解ラベルが diff のものを抽出して識別

['diff' 'diff' 'diff' 'same' 'same' 'diff' 'diff' 'same' 'diff' 'same'

'same' 'diff' 'diff' 'same' 'diff' 'diff' 'same' 'diff' 'same' 'diff'

'diff']

numpy.where を使う

whrere は Numpy ライブラリの関数で、条件を満たす要素の位置（インデックス）を返してくれます。

先ほど抽出した、正解ラベルが same のものと、diff のものを利用します。

例えば「正解ラベルが same のうち、識別結果が diff のもの」を不正解データと扱うことができます。

コードで書くと以下のようになります。

# テストデータのうち、正解ラベルが same のものを抽出して識別
py = classifier.predict( test_data_df [labels_test_data=='same'] )
# 識別結果が diff のもの
print(np.where(py=='diff'))

# テストデータのうち、正解ラベルが same のものを抽出して識別

py = classifier.predict( test_data_df [labels_test_data=='same'] )

# 識別結果が diff のもの

print(np.where(py=='diff'))

(array([ 2, 3, 5, 9, 13, 17, 20]),)

1	(array([ 2, 3, 5, 9, 13, 17, 20]),)

リストの要素の位置（インデックス）が返ってくることが分かります。

不正解データの抽出

以上を踏まえて、不正解データ（識別器が誤って識別してしまったデータ）の抽出を行います。

不正解データのパターンとしては、予測した結果のうち、

正解ラベルが same のうち、識別結果が diff と誤って判断してしまった（False Negative; FN）。
正解ラベルが diff のうち、識別結果が same と誤って判断してしまった（False Positive; FP）。

の２パターンが考えられます。

where で抽出したリストの要素の位置を iloc で与えて行番号から抽出を行います。

iloc は、pandas で行番号・列番号を指定して抽出を行う関数です。

●False Negative; FN

# テストデータのうち、正解ラベルが same のものを抽出して識別
py = classifier.predict( test_data_df [labels_test_data=='same'] )
tmp_df = df_2_class_test[labels_test=='same'].iloc[np.where(py=='diff')]
print(tmp_df[['q_user_id', 'r_user_id']])

# テストデータのうち、正解ラベルが same のものを抽出して識別

py = classifier.predict( test_data_df [labels_test_data=='same'] )

tmp_df = df_2_class_test[labels_test=='same'].iloc[np.where(py=='diff')]

print(tmp_df[['q_user_id', 'r_user_id']])

df_2_class_test は元の（学習に使用した特徴量なども含めた）データです。

●False Positive; FP

# テストデータのうち、正解ラベルが diff のものを抽出して識別
py = classifier.predict( test_data_df [labels_test_data=='diff'] )
tmp_df = df_2_class_test[labels_test=='diff'].iloc[np.where(py=='same')]
print(tmp_df[['q_user_id', 'r_user_id']])

# テストデータのうち、正解ラベルが diff のものを抽出して識別

py = classifier.predict( test_data_df [labels_test_data=='diff'] )

tmp_df = df_2_class_test[labels_test=='diff'].iloc[np.where(py=='same')]

print(tmp_df[['q_user_id', 'r_user_id']])

正解データの抽出

正解データのパターンとしては、予測した結果のうち、

正解ラベルが same のうち、識別結果が same と正しく判断した（True Positive; TP）。
正解ラベルが diff のうち、識別結果が diff と正しく判断した（True Negative; TN）。

の２パターンが考えられます。

●True Positive; TP

# テストデータのうち、正解ラベルが same のものを抽出して識別
py = classifier.predict( test_data_df [labels_test_data=='same'] )
tmp_df = df_2_class_test[labels_test=='same'].iloc[np.where(py=='same')]
print(tmp_df[['q_user_id', 'r_user_id']])

# テストデータのうち、正解ラベルが same のものを抽出して識別

py = classifier.predict( test_data_df [labels_test_data=='same'] )

tmp_df = df_2_class_test[labels_test=='same'].iloc[np.where(py=='same')]

print(tmp_df[['q_user_id', 'r_user_id']])

●True Negative; TN

# テストデータのうち、正解ラベルが diff のものを抽出して識別
py = classifier.predict( test_data_df [labels_test_data=='diff'] )
tmp_df = df_2_class_test[labels_test=='diff'].iloc[np.where(py=='diff')]
print(tmp_df[['q_user_id', 'r_user_id']])

# テストデータのうち、正解ラベルが diff のものを抽出して識別