回答思路
逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类,提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象,引入ROC。根据分类结果计算得到ROC空间中相应的点,连接这些点就形成ROC curve,横坐标为False Positive Rate(FPR假正率),纵坐标为True Positive Rate(TPR真正率)。一般情况下,这个曲线都应该处于(0,0)和(1,1)连线的上方。 ROC曲线中的四个点和一条线: 点(0,1):即FPR=0, TPR=1,意味着FN=0且FP=0,将所有的样本都正确分类。 点(1,0):即FPR=1,TPR=0,最差分类器,避开了所有正确答案。 点(0,0):即FPR=TPR=0,FP=TP=0,分类器把每个实例都预测为负类。 点(1,1):分类器把每个实例都预测为正类。 总之:ROC曲线越接近左上角,该分类器的性能越好。而且一般来说,如果ROC是光滑的,那么基本可以判断没有太大的overfitting 答案解析 这道题主要是考察ROC的基础知识,需要能够描述ROC的计算方式和如何画出曲线