基于改进决策树算法的网络关键资源页面判定

被引:11
作者
刘奕群
张敏
马少平
机构
[1] 智能技术与系统国家重点实验室(清华大学)
关键词
网络信息检索; 关键资源页面; 机器学习; 决策树;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(TextRetrievalConference,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径.
引用
收藏
页码:104 / 112
页数:9
相关论文
共 2 条
[1]   一种新的决策树归纳学习算法 [J].
洪家荣 ;
丁明峰 ;
李星原 ;
王丽薇 .
计算机学报, 1995, (06) :470-474
[2]   决策树的优化算法 [J].
刘小虎 ;
李生 .
软件学报, 1998, (10) :78-81