用户定制主题聚焦爬虫的设计与实现

被引:9
作者
闵钰麟 [1 ,2 ]
黄永峰 [1 ,2 ]
机构
[1] 清华大学电子工程系信息认知与智能系统研究所
[2] 清华大学信息科学与技术国家实验室
关键词
聚焦爬虫; k-means; best-first策略; 自适应主题模型; 用户定制主题爬虫;
D O I
10.16208/j.issn1000-7024.2015.01.004
中图分类号
TP393.092 [];
学科分类号
摘要
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。
引用
收藏
页码:17 / 21
页数:5
相关论文
共 7 条
  • [1] Semantic ranking of web pages based on formal concept analysis
    Du, Yajun
    Hai, YuFeng
    [J]. JOURNAL OF SYSTEMS AND SOFTWARE, 2013, 86 (01) : 187 - 197
  • [2] Focused crawling of tagged web resources using ontology[J] . Punam Bedi,Anjali Thukral,Hema Banati.Computers and Electrical Engineering . 2012
  • [3] OntoCrawler: A focused crawler with ontology-supported website models for information agents[J] . Sheng-Yuan Yang.Expert Systems With Applications . 2010 (7)
  • [4] Improving the performance of focused web crawlers
    Batsakis, Sotiris
    Petrakis, Euripides G. M.
    Milios, Evangelos
    [J]. DATA & KNOWLEDGE ENGINEERING, 2009, 68 (10) : 1001 - 1013
  • [5] Combining text and link analysis for focused crawling—An application for vertical search engines[J] . G. Almpanidis,C. Kotropoulos,I. Pitas.Information Systems . 2006 (6)
  • [6] 面向专业搜索引擎的主题爬行技术研究. 彭涛. 吉林大学 .
  • [7] An improved topic relevance algorithm for focused crawling. Hong Weihao,Cui Xiamu,Xu Chengyin. Systems,Man,and Cybernetics . 2011