可在线增量自学习的聚焦爬行方法

被引：19

作者：

傅向华

冯博琴

马兆丰

何明

不详

机构：

[1] 西安交通大学电子与信息工程学院

[2] 西安交通大学电子与信息工程学院西安

[3] 西安

[4] 西安

来源：

西安交通大学学报 | 2004年 / 06期

关键词：

资源发现; 聚焦爬行; 在线学习; 半监督学习;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

摘要：

将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.

引用

页码：599 / 602

页数：4