一、经验误差与过拟合
错误率(
error rate
):
分类错误的样例数占样例总数的比例,即:
E=a/m
精度
(
accuracy
) :
精度=
1
-错误率,即:
acc=
1
-a/m
误差(
error
) :
学习器的预测输出与样例
的真实输出间的差异称为误差,在训练
集上的误差称为
训练误差
(
training error
)
或
经验误差
(
empirical error
)
,
在新样本
上的误差称为
泛化误差
(
generalizatiuon
error
)
或
验证误差
(validation error)
。
过拟合(
overfitting
)
与欠拟合
(
underfitting
) :
学习器泛化功能下降的
现象称为过拟合,相对的为欠拟合。
二、
模型评估
1.数据集划分:
将训练数据切分为
训练集与验证集
,两组数据
互不重合
,将模型
在
验证集的“测试误差”作为泛化误差的近似
方法1:
留出法(Hold-Out)直接将数据集划分为两个互斥集合
注:
分布一致性:
尽可能保持两个集合的数据分布一致性,各类别样本比例要接近
多次划分:
可进行若干次随机划分、重复实验取平均值作为最终评估结果
划分比例:训练/验证样本比例通常为2:1~4:1,可根据任务进行选择
方法2:
交叉验证(Cross-Validation)分层划分为K个互斥子集
注:
分层采样:
将数据划分为K个大小相似的互斥子集,通过分层采样让每个子集的分布尽可能一致
组
合方式:
每次用k-1个子集的并集作为训练集,余下的子集作为验证集,共得到K组划分
K的取值:
测试结果的稳定性与保真性取决于K,也叫作“K折交叉验证”,K通常取10
交叉验证(Cross-Validation)的特殊情形:
K=样本数n
留一法(Leave-One-Out):
每次划分仅留1个样本作为验证集,取N次评估的均值作为结果
方法3:
自助法(Bootstrap)有放回采样(确保训练集大小)
对样本量为n的数据集每次
有放回地随机采样得到n个样本
作为训练集,未被采样到的数据作为
测试集
样本在n次采样中始终不被采到的概率是
2.
常见任务的代表性度量指标:
回归任务
最常用的度量指标是“均方误差”(Mean Squared Error, MSE):
分类任务
最常用的度量指标是错误率与准确率(Error Rate & Accuracy):
错误率:
分错样本占样本总数的比例
:
指示函数 (Indicator Function)
指示函数是定义在集合 X 上的函数, 用来表示其中有哪些元素属于它的子集 A
准确率:
分对样本占样本总数的比率
混淆矩阵(查准率与查全率):
对类别不均衡的问题来说
,经常需要衡量预测出来的正例中正确的比率或者正例被预测出来的比率,此时
查准率(Precision)和查全率(Recall)
比准确率与错误率更适合作为度量指标。统计真实标记和预测结果的组合可以得到“
混淆矩阵
”。
True label |
Positive | Negative |
True | TP | FN |
False | FP | TN |
查准率
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛:
查全率
𝑅𝑒𝑐𝑎𝑙𝑙:
P-R曲线度量性能
根据学习器的预测结果
按正例可能性大小
对样例进行排序,并逐个把样本作为正例进行预测,则可以得到
查准率-查全率
曲线,简称“P-R曲线”
0
P-R曲线越靠右上角越好!
平衡点(BEP,Break-Even Point):
是曲线上“查准率=查全率”时的取值,可用来用于度量P-R曲线有交叉的分类器性能高低。
F1度量:
m:样例总数
有多个混淆矩阵时,我们可以在每个混淆矩阵上计算查准率、查全率和F1,得到:
(
P
1
,
R
1
), (
P
2
,
R
2
)
, …
,
(
P
n
,
R
n
)
,
则有:
宏查准率(
macro-P
)、宏查全率(
macro-R
)和宏F1(
macro-F1
):
微查准率(micro-P)、微查全率(micro-R)和微F1(
micro-F1
):
ROC曲线
(
Receiver Operating Characteristic
)“受试者工作特征曲线”
真正例率:
假正例率:
暂无评论内容