垂直搜索引擎的研究与实现

被引:0
作者
肖亮
机构
[1] 北京交通大学
关键词
垂直搜索引擎; 专业爬虫; 信息抽取;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着Internet和WWW的迅速发展,Interact上的资源日趋丰富,为了帮助人们在浩如烟海的互联网中得到有用的信息,基于Internet的各类信息检索服务应运而生并得到了迅速发展。目前人们在互联网上搜索信息主要是通过Google,百度等通用搜索引擎。这类搜索引擎的功能已十分强大,在一般情况下是可以满足用户的需求的。然而当用户只想查询具体某专业或某行业,或某种主题的相关信息时,这类搜索引擎就会显得有些力不从心了。垂直搜索引擎的出现,就是专们为了解决这个问题的。 本文首先论述了垂直搜索的研究意义,接着详细介绍了搜索引擎的体系结构,并深入探讨了通用搜索引擎的核心技术,包括网页抓取技术,中文分词技术,网页排名技术等。然后又通过与通用搜索引擎的对比,介绍了构造垂直搜索引擎所需要的关键技术。 在此基础上,本文提出了构造垂直搜索引擎时最重要的两个模块,即网页搜集模块和结构化信息抽取模块的架构设计及算法模型。在网页搜集模块中,对垂直搜索所要着力解决的“主题飘移”现象,提出了通过主题判定,主题预测和网页排序的手段来防止这种现象,并在各自的模块中提出了相应的算法模型。在结构化信息提取模块中,构造了一个基于XML技术的信息抽取系统的原型。将搜索模块和信息提取模块进行合理的组合配置,形成了垂直搜索引擎的核心部分,为创建一个完整的垂直搜索引擎打下了良好的基础。
引用
收藏
页数:56
共 8 条
[1]
Focused crawling: a new approach to topic-specific Web resource discovery.[J].Soumen Chakrabarti;Martin van den Berg;Byron Dom.Computer Networks.1999, 11
[2]
Learning information extraction rules for semi-structured and free text [J].
Soderland, S .
MACHINE LEARNING, 1999, 34 (1-3) :233-272
[3]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[4]
垂直搜索引擎发展概述 [J].
罗丽姗 .
图书馆学研究, 2006, (12) :68-70+55
[5]
论垂直搜索引擎中的信息抽取技术的选用 [J].
郭兴 ;
柯鹏 ;
徐媛 ;
李宗荣 .
医学信息, 2006, (12) :2063-2065
[6]
主题爬虫的设计与实现 [J].
汪涛 ;
樊孝忠 .
计算机应用, 2004, (S1) :270-272
[7]
垂直搜索引擎研究 [J].
肖冬梅 .
图书馆学研究 , 2003, (02) :87-89
[8]
基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533