面向专用信息获取的用户定制主题网络爬虫技术研究

被引:17
作者
薛丽敏 [1 ]
吴琦 [1 ,2 ]
李骏 [1 ]
机构
[1] 海军指挥学院信息系
[2] 海军部队
关键词
大数据; 主题网络爬虫; Pagerank算法; 行为分析; 用户定制;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。
引用
收藏
页码:12 / 21
页数:10
相关论文
共 26 条