基于增量反馈和自适应机制的主题爬虫系统的设计与实现

被引:0
作者
王斐
机构
[1] 南京理工大学
关键词
主题爬虫; HITS; 向量空间模型; 超链分析;
D O I
暂无
年度学位
2005
学位类型
硕士
摘要
近年来,随着互联网信息的快速几何增长,如何及时准确地从互联网上获取有用信息显得十分重要。主题爬虫是一种基于主题的信息采集系统,可以从互联网上采集到与主题相关的有用信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。 本论文进行了基于主题的爬虫系统的设计与实现,其主要的研究工作和特点包括: ① 研究了主题爬虫系统的基本理论和基本结构,深入分析和探讨了与主题爬虫相关的技术,并设计和初步实现了一个基于增量反馈和自适应机制的主题爬虫系统——HJSpider。 ② 在页面与主题相关性判定中,引入了文本分类的思想,应用了在自然语言处理中比较成熟的基于向量空间模型的主题相似度计算方法。 ③ 在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,并在经典的HITS算法基础上提出了引入增量反馈和自适应机制的新的算法。 ④ 总结了主题页面在Web上的分布规律,给出了主题选择的方法以及对主题页面中基于HTML语法的分析方法。
引用
收藏
页数:56
共 22 条
[1]
自动主题搜索的应用研究 [D]. 
陈定权 .
中国科学院研究生院(文献情报中心),
2003
[2]
主题爬虫的设计与实现 [J].
汪涛 ;
樊孝忠 .
计算机应用, 2004, (S1) :270-272
[3]
非贪婪策略在WEB搜索中的应用 [J].
李学勇 ;
欧阳柳波 ;
李国徽 .
中央民族大学学报(自然科学版), 2004, (03) :235-239+257
[4]
专业搜索引擎搜索策略综述 [J].
欧阳柳波 ;
李学勇 ;
李国徽 ;
王鑫 .
计算机工程, 2004, (13) :32-33+46
[5]
自动分类模型及算法研究 [J].
王伟 ;
王惠荣 ;
刘志强 .
微电子学与计算机, 2004, (05) :93-96
[6]
定题搜索引擎Robot的设计与算法 [J].
龙宇巍 ;
王永成 ;
许欢庆 .
计算机仿真, 2004, (04) :69-72+76
[7]
网络蜘蛛搜索策略比较研究 [J].
李学勇 ;
欧阳柳波 ;
李国徽 ;
钟敏娟 ;
不详 .
计算机工程与应用 , 2004, (04) :128-131
[8]
支持向量机(SVM)主动学习方法研究与应用 [J].
张健沛 ;
徐华 .
计算机应用, 2004, (01) :1-3
[9]
万维网的链接结构分析及其应用综述 [J].
王晓宇 ;
周傲英 .
软件学报, 2003, (10) :1768-1780
[10]
基于VSM的中文文本分类系统的设计与实现 [J].
张东礼 ;
汪东升 ;
郑纬民 .
清华大学学报(自然科学版), 2003, (09) :1288-1291