基于Lucene的垂直搜索引擎设计

被引:0
作者
于海
机构
[1] 吉林大学
关键词
Deep web ; 主题爬行; 垂直搜索; 文本分类;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
Internet是一个巨大的信息资源库,有大量的页面是由站点后台数据库动态产生的,不能直接通过静态链接获取,只能通过填写表单提交查询来获取,而传统的网络爬虫程序不具备填写表单的能力,抓取不到这些页面。因此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见的,被称之为Deep Web。Deep Web和浅层页面信息相比信息量更大,主题更专一,信息质量更高,信息结构化更好。然而要想比较全面而准确的把它们从Web中搜索出来是一件非常困难的事情。因为查询接口在网页上都是以HTML语言的FORM标签所形成的表单的形式展现,爬虫需要能够准确地填写Web数据库的查询接口。 Deep Web受到越来越多的研究人员的关注,并且越来越多的相关研究成果被发表。对Deep Web研究的根本目的是为了能够自动地获取利用自由分布在整个互联网上的Deep Web中丰富的信息。 本文将Deep Web发掘与“主题爬行”技术有机地结合起来,对Deep Web垂直搜索引擎系统的关键技术进行了深入研究,使用已有的主题爬行技术来指导Deep Web发掘,将Deep Web发掘技术融入主题爬行,研究了基于Deep Web垂直搜索引擎设计,实现了一个面向Deep Web的垂直搜索引擎原型系统HYSE。 随着Web数据库在Web中不断大量的涌现,人们在Deep Web领域已经作了大量的研究,然而大部分工作仍然处于探索性的阶段,有些方面的工作到目前可以说是刚刚开始甚至仍然是空白。因此要真正有效的利用Deep Web资源仍然有许多的问题有待更深入的研究。本文对Deep Web垂直搜索引擎的关键技术进行了研究,但文中提出的方法、算法还有待进一步改进;HYSE仍然是一个功能不强的原型系统,与大规模、多主题领域的信息检索系统相比仍然有一定的差距。
引用
收藏
页数:54
共 3 条
[1]
汉语自动分词方法 [J].
殷建平 .
计算机工程与科学, 1998, (03)
[2]
汉语自动分词中的神经网络技术研究 [J].
林亚平 ;
李彦 ;
童调生 ;
尹锋 .
湖南大学学报(自然科学版), 1997, (06)
[3]
Adaptive retrieval agents: Internalizing local context and scaling up to the Web [J].
Menczer, F ;
Belew, RK .
MACHINE LEARNING, 2000, 39 (2-3) :203-242