第二十四個夏天後: [Python] 機器學習筆記 - 使用 ROC 曲線 (receiver operating characteristic curve) 評估分析成果

2017年9月15日星期五

[Python] 機器學習筆記 - 使用 ROC 曲線 (receiver operating characteristic curve) 評估分析成果

最近回想起兩年前走跳過的一場黑客松，當年的題目恰好是一個屬性的分類，就是一篇文章屬性給你，請告訴我它是不是 spam！所幸網路上還可以看到其他人的作品，逛了一下也順便研究別人的報告怎麼寫，其中有一組使用了 ROC 曲線來回報自己的分析成果，就來多多認識一下。

而 ROC 曲線是什麼？其實在 WIKI 或是 scikit-learn 文件(也引用WIKI資料)有很明確地解釋：

簡單的說，當畫出此圖後，若一開始就達左上角是最完美的，若一開始分析結果是斜線上方是好的，反之下方是差的。接下來，則是會去計算曲線下方的面積，產生一個介於 0~1 的數值，只要等於 0.5 就是跟隨機猜測一樣，代表此分析模型沒有預測價值；若大於 0.5 代表猜測是正向的，而小於 0.5 代表猜測的方向恰好相反；而 1 或 0 代表全部辨識正確或全部辨識錯誤。

因此，只需設法把模型預測結果畫一下 ROC 曲線，在算出個面積，就收工啦！

範例請參考 http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html ，在此只筆記畫圖的部分：


import numpy as np

from sklearn.metrics import roc_curve, auc

y = np.array([0, 0, 1, 1])

scores = np.array([0.1, 0.4, 0.35, 0.8])

fpr, tpr, _ = roc_curve(y, scores)

roc_auc = auc(fpr, tpr)



import matplotlib as mpl

#mpl.use('Agg')

import matplotlib.pyplot as plt



fig = plt.figure()

lw = 2

plt.plot(fpr, tpr, color='darkorange', lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)

plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')

plt.xlim([0.0, 1.0])

plt.ylim([0.0, 1.05])

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plt.title('Receiver operating characteristic example')

plt.legend(loc="lower right")

#fig.savefig('/tmp/roc.png')

plt.show()

第二十四個夏天後

2017年9月15日星期五

[Python] 機器學習筆記 - 使用 ROC 曲線 (receiver operating characteristic curve) 評估分析成果

沒有留言:

張貼留言

Subscribe Now

2017年9月15日 星期五

[Python] 機器學習筆記 - 使用 ROC 曲線 (receiver operating characteristic curve) 評估分析成果

沒有留言:

張貼留言

Subscribe Now

2017年9月15日星期五