less than 1 minute read

ROC曲线和PR(Precision - Recall)曲线皆为类别不平衡问题中常用的评估方法

1. 基础概念

缩写 术语 实际类别 说明
TP 真阳性 正样本  
FP 假阳性 负样本 一类错误,假报警
TN 真阴性 负样本  
FN 假阴性 正样本 二类错误,未命中

真阳性率: \(TPR = \frac{TP}{P} = \frac{TP}{TP + FP}\)
假阳性率: \(FPR = \frac{FP}{N} = \frac{FP}{FP + TN}\)
准确率: \(Precision = \frac{TP}{Y} = \frac{TP}{FP + TP}\)

2 ROC

关于 TPR 和 FPR 的曲线 详情
AUC (Area Under the Curve):反映的是将正样本判为负的概率比将负样本判为正的概率大多少;

2.1 优点

2.2 缺点

3 PR

以 recall 为横坐标,precision 为纵坐标绘制出 PR 曲线;
此处,正负样本形成对抗,使得曲线越靠近左上角(正例优先于负例),模型整体表现越好(可视化之后,正负样本之间 gap 很大);而处于随机线(主对角线)上的点则意味着,一个样本会被随机判断为正/负;

这里,ROC 指标表现,等于模型泛化能力更好吗 并不是,因为泛化说的是评测指标在训练集和测试集上表现的差异程度;而此处,说的是 ROC 在某个数据集上的表现好,说到泛化,还是要和训练集上的指标(ROC)相比才可以;

3.1 优点

  • 兼顾正例(TPR)和负例(FPR);
  • 指标不依赖于数据分布(类别间数量差异);什么意思,有哪个指标依赖于具体类别吗
    FPR 依赖的是所有正样本,FPR 依赖所有负样本;当正负样本比例失调时,ROC 曲线也不会产生很大变化;但 Precision 同时依赖正负样本,就易受数据分布影响;

3.2 缺点


TOP

附录

A 参考资料

  1. 张乐乐章. PR曲线 ROC曲线的 计算及绘制[EB/OL]. https://www.cnblogs.com/zle1992/p/6825076.html. 2017-05-08/2020-10-23.
    ROC 的例子很好理解;
  2. massquantity. 机器学习之类别不平衡问题 (2) —— ROC和PR曲线[EB/OL]. https://developer.aliyun.com/article/620175. 2018-03-20/2020-10-23.

B 概念

1. ROC 曲线的形成
以二分类为例,此处 P 的定义是置信度>阈值为正,否则为负;那么设定一个阈值得到一个 TPR——FPR 点,(0, 1)的阈值就可以得到一组点,进而绘制成 ROC 曲线; ;我们通常使用的 softmax + argmax,其实是用的阈值 0.5;

Comments