面向主题的舆情采集搜索爬虫的设计与实现

被引:0
作者
李玉华
机构
[1] 山东大学
关键词
面向主题; 舆情采集; 搜索爬虫; Boltzmann; 增量自学习;
D O I
暂无
年度学位
2009
学位类型
硕士
摘要
针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,以舆情信息为核心研究和设计了主题搜索爬虫,为进行主题搜索引擎的研究奠定了良好的基础。 本文首先介绍了面向主题搜索引擎的背景,然后对主题舆情搜索引擎的需求进行了分析,在这基础上对系统进行了概要设计和详细设计,最后就系统实现和测试进行了一些探讨。 作为一个面向主题的舆情采集搜索爬虫,系统实现了一个基于Boltzmann行动选择策略的具有在线增量自学习能力的面向主题搜索爬虫的原型,通过控制网络蜘蛛的贪婪程度,基于Boltzmann行动选择策略进行爬行。本文引入网页信噪比的概念,并通过它衡量网页里关键词的信息是否超过一定的阈值,从而判断网页是否属于所要搜索的主题网页,来调整网页搜索的优先级。在此基础上,面向主题搜索爬虫引入在爬行过程中自动更新学习模型,当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值。通过这样,避免了网络蜘蛛过早陷入Web搜索空间中局部最优子空间的陷阱,同时能准确识别页面的主题相关性,具有很好的自学习能力。同时可以根据链接优先权队列中链接的价值大小比较网页搜索的优先级。 基于以上研究,本文设计并部分实现了面向主题搜索爬虫,并通过实验与其它搜索策略进行比较,证实本文提出的算法在查全率与查准率两方面都有一定的优越性,在寻找最优行动选择序列方面具有优势。但是,如何完善目前网页的权值判断机制,使网络链接价值的计算更精确,使搜索爬虫更加智能化,需要以后进一步研究。
引用
收藏
页数:88
共 12 条
[1]
全文索引的研究 [J].
徐小刚 ;
王俊杰 ;
于玉 .
计算机工程, 2002, (02) :101-103
[2]
Internet的搜索引擎 [J].
林彤 ;
江志军 .
计算机工程与应用, 2000, (05) :160-163
[3]
中文搜索引擎:现状、问题及对策 [J].
李名智 .
大学图书馆学报, 1998, (06)
[4]
电子政务与决策咨询创新.[M].吴怡青; 著.山东人民出版社.2007,
[5]
Hibernate程序高手秘笈.[M].(美) 埃利奥特 (Elliott;J.) ; 著.东南大学出版社.2007,
[6]
搜索引擎与Web挖掘进展.[M].李晓明;李星主编;.高等教育出版社.2003,
[7]
语言计算与基于内容的文本处理.[M].孙茂松;陈群秀主编;.清华大学出版社.2003,
[8]
C#网络应用编程.[M].(美)RichardBlum著;高春蓉等译;.电子工业出版社.2003,
[9]
JSP设计.[M].[美]HansBergsten著;何健辉;许俊娟译;.中国电力出版社.2002,
[10]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,