训练集容量对决策树分类错误率的影响研究

被引:6
作者
孙微微
刘才兴
田绪红
机构
[1] 华南农业大学信息学院计算机科学与工程系
关键词
可能近似正确模型; PAC; 训练集; 错误率;
D O I
暂无
中图分类号
TP311 [程序设计、软件工程];
学科分类号
摘要
数据挖掘算法必须在实际数据集上进行验证,而数据集容量是有限的,训练集比例过低会导致训练不足,训练集比例过高会导致算法评价过于乐观。针对训练集容量对评价效果的影响问题,对25个UCI数据集的不同比例训练集运用决策树算法C4.5,得出不同训练集容量对决策树分类错误率的影响关系。实验结果表明,训练集比例至少为50%时才能使分类错误率达到相对平稳。
引用
收藏
页码:159 / 161
页数:3
相关论文
共 1 条
[1]  
机器学习.[M].(美)TomM.Mitchell著;曾华军;张银奎等译;.机械工业出版社.2003,