近年来,随着互联网信息的快速几何增长,如何及时准确地从互联网上获取有用信息显得十分重要。主题爬虫是一种基于主题的信息采集系统,可以从互联网上采集到与主题相关的有用信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。
本论文进行了基于主题的爬虫系统的设计与实现,其主要的研究工作和特点包括:
① 研究了主题爬虫系统的基本理论和基本结构,深入分析和探讨了与主题爬虫相关的技术,并设计和初步实现了一个基于增量反馈和自适应机制的主题爬虫系统——HJSpider。
② 在页面与主题相关性判定中,引入了文本分类的思想,应用了在自然语言处理中比较成熟的基于向量空间模型的主题相似度计算方法。
③ 在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,并在经典的HITS算法基础上提出了引入增量反馈和自适应机制的新的算法。
④ 总结了主题页面在Web上的分布规律,给出了主题选择的方法以及对主题页面中基于HTML语法的分析方法。