用户定制主题爬虫的设计与实现

被引:1
作者
吴经伟
刘学亮
机构
[1] 合肥工业大学计算机与信息学院
关键词
主题爬虫; 元搜索; 本体; 重排序; 初始URL;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
目的:主题爬虫是用户获取领域知识的一种有效途径。为实现此方法用户首要解决的问题是主题向量的训练数据的选择和初始URLs的选择。但传统的主题爬虫对于初始URLs的选取并没有过多论述,为此,本文探讨了初始URLs对于主题爬虫的影响,并提出了一种基于元搜索和本体结合的算法来选择并确定初始URLs。方法:采用元搜索方法获取与主题相关的初始URLs,然后根据返回结果采用本体领域知识进行重排序,选择前排的URLs。自动而不是人工地进行初始URLs的确定,同时将页面信息作为训练主题向量的语料。结果:通过对比实验,本文选取的初始URLs比随机选择的要有更高的收获比。从获取总量上看,本文的方法能获得更多的相关网页。结论:通过实验证明主题团的存在,通过本文方法能够选择质量更好的初始URLs,获取主题向量训练语料,发现更多主题团,并且方便用户对于主题爬虫的定制。
引用
收藏
页码:135 / 140
页数:6
相关论文
共 9 条
  • [1] 基于TF-IDF改进算法的聚焦主题网络爬虫
    王景中
    邱铜相
    [J]. 计算机应用, 2015, 35 (10) : 2901 - 2904+2919
  • [2] 用户定制主题聚焦爬虫的设计与实现
    闵钰麟
    黄永峰
    [J]. 计算机工程与设计, 2015, 36 (01) : 17 - 21
  • [3] 基于本体的主题爬虫的设计与实现
    杨贞
    杜习英
    [J]. 科技情报开发与经济, 2008, (02) : 73 - 75
  • [4] 主题爬虫的设计与实现
    汪涛
    樊孝忠
    [J]. 计算机应用, 2004, (S1) : 270 - 272
  • [5] 元搜索关键技术研究与实现[D]. 李宪雷.北京工业大学. 2008
  • [6] Focused crawling of tagged web resources using ontology[J] . Punam Bedi,Anjali Thukral,Hema Banati. Computers and Electrical Engineering . 2012
  • [7] OntoCrawler: A focused crawler with ontology-supported website models for information agents[J] . Sheng-Yuan Yang. Expert Systems With Applications . 2010 (7)
  • [8] Combining text and link analysis for focused crawling—An application for vertical search engines[J] . G. Almpanidis,C. Kotropoulos,I. Pitas. Information Systems . 2006 (6)
  • [9] Focused crawling: a new approach to topic-specific Web resource discovery[J] . Soumen Chakrabarti,Martin van den Berg,Byron Dom. Computer Networks . 1999 (11)