基于链接路径预测的聚焦Web实体搜索

被引:8
作者
黄健斌 [1 ]
孙鹤立 [2 ]
机构
[1] 西安电子科技大学国家示范性软件学院
[2] 西安交通大学计算机科学与技术系
关键词
实体搜索; 聚焦爬行; 链接路径预测; 条件随机场; 增强学习;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值。在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.
引用
收藏
页码:2059 / 2066
页数:8
相关论文
共 4 条
[1]
Focused crawling: a new approach to topic-specific Web resource discovery.[J].Soumen Chakrabarti;Martin van den Berg;Byron Dom.Computer Networks.1999, 11
[2]
Efficient crawling through URL ordering.[J].Junghoo Cho;Hector Garcia-Molina;Lawrence Page.Computer Networks and ISDN Systems.1998, 1
[3]
基于质心向量的增量式主题爬行 [J].
王辉 ;
左万利 ;
王晖昱 ;
宁爱军 ;
孙志伟 ;
满春雷 .
计算机研究与发展, 2009, 46 (02) :217-224
[4]
基于混合跳链条件随机场的异构Web记录集成方法 [J].
黄健斌 ;
姬红兵 ;
孙鹤立 .
软件学报, 2008, (08) :2149-2158