主题搜索引擎设计与研究

被引:0
作者
刘强国
机构
[1] 电子科技大学
关键词
主题搜索; 向量空间模型; 主题判定; 关键词集;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
由于Web上海量的信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个准确并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询请求。而主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的可以更深,搜索的周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求。面向主题的搜索研究正成为越来越热门的课题。 本文首先对搜索引擎的历史、分类、发展现状及其趋势做了概要介绍;然后以搜索引擎的体系结构、工作原理为主线在全文展开我们的研究工作。我们分别对爬虫技术、HTML解析技术、分词技术做了详细的分析与研究。对页面链接、页面分布的特征也做了分析。 本文设计和实现了一个页面主题相关性判定系统。它的系统结构植根于开源软件Nutch,在健壮性与简单易用性上得到了保证。其核心思想是:把关键词加权和页面进行主题相关性判定。其中运用到了向量空间模型与关键词集技术。 本文还提出了一个较为新颖的概念:关键词和页面间的Ω—距离。形象的说就好象网络信息交互中的“电阻”将关键词所表达的真实意图和与之匹配的页面生硬的隔离开了或者说拉远了,这个概念在主题搜索领域具有独特的实用价值,可以有效地提高信息搜索匹配的智能化程度,但是在实现方面还有待进一步的突破。 本文在面向主题的搜索引擎方面进行了一些有意义的研究和尝试,并为该领域进一步的研究工作打下了基础。
引用
收藏
页数:87
共 14 条
[1]
自动主题搜索的应用研究 [D]. 
陈定权 .
中国科学院研究生院(文献情报中心),
2003
[2]
征服Ajax+Lucene构建搜索引擎.[M].李刚;宋伟;邱哲编著;.人民邮电出版社.2006,
[3]
网络信息资源搜集与利用.[M].孙建军主编;.东南大学出版社.2000,
[4]
编译原理.[M].吕映芝等编著;.清华大学出版社.1998,
[5]
主题爬虫的设计与实现 [J].
汪涛 ;
樊孝忠 .
计算机应用, 2004, (S1) :270-272
[6]
非贪婪策略在WEB搜索中的应用 [J].
李学勇 ;
欧阳柳波 ;
李国徽 .
中央民族大学学报(自然科学版), 2004, (03) :235-239+257
[7]
专业搜索引擎搜索策略综述 [J].
欧阳柳波 ;
李学勇 ;
李国徽 ;
王鑫 .
计算机工程, 2004, (13) :32-33+46
[8]
定题搜索引擎Robot的设计与算法 [J].
龙宇巍 ;
王永成 ;
许欢庆 .
计算机仿真, 2004, (04) :69-72+76
[9]
用JavaCC构造编译器的方法 [J].
姚砺 ;
束永安 .
计算机工程, 2003, (09) :39-41
[10]
关于信息过滤模型的探讨 [J].
张晓冬 ;
张书杰 ;
邢俊丽 ;
李俊玉 .
计算机工程与应用, 2002, (05) :99-100+236