可在线增量自学习的聚焦爬行方法

被引:19
作者
傅向华
冯博琴
马兆丰
何明
不详
机构
[1] 西安交通大学电子与信息工程学院
[2] 西安交通大学电子与信息工程学院 西安
[3] 西安
[4] 西安
关键词
资源发现; 聚焦爬行; 在线学习; 半监督学习;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.
引用
收藏
页码:599 / 602
页数:4
相关论文
共 4 条
  • [1] 基于Bayes潜在语义模型的半监督Web挖掘
    宫秀军
    史忠植
    [J]. 软件学报, 2002, (08) : 1508 - 1514
  • [2] Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)
  • [3] Fast online Q(λ)
    Wierling, M
    Schmidhuber, J
    [J]. MACHINE LEARNING, 1998, 33 (01) : 105 - 115
  • [4] Focused crawling: a new approach to topic-specific Web resource discovery. Chakrabarti S M, van den Berg H, Dom B. Computer Networks . 1999