主题型搜索引擎的研究与实现

被引:0
作者
侯震宇
机构
[1] 中国科学院研究生院(文献情报中心)
关键词
网络信息检索; 信息采集; 搜索引擎; 主题型搜索引擎; iRobot系统;
D O I
暂无
年度学位
2003
学位类型
硕士
导师
摘要
Tnternet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,提出了将基于内容和基于链接的搜索技术相结合的思想,设计了一个面向主题的搜索引擎iRobot系统,阐述了它的结构和设计开发原理。 论文共分三个部分。第一部分(第一章)为总论,阐述了网络信息检索发展的现状和搜索引擎发展的不足,指出了主题型搜索引擎的概念和进行研究的必要性。第二部分(第二章)为设计iRobot系统所涉及的关键技术的研究。本文系统阐述了信息检索的原理和搜索引擎技术,并对网络信息索引、本体论、网络挖掘、信息过滤、智能代理、网络信息检索算法做了深入的剖析。第三部分(第三到第七章)为iRobot的具体实现部分,在上述理论分析的基础上给出了iRobot系统的设计思想和原则,分析了iRobot的工作流程,并详细的介绍了iRobot的结构和实现技术。 iRobot系统是一个面向主题的搜索系统,用于为专业人士或机构搜集信息。整个系统的核心分为三个部分:1、初始化部分:系统的初始化部分包括向导程序和待搜索种子站点集合的扩充。iRobot系统种子站点集合的扩充由简单元搜索引擎和超链分析实现,向用户推荐一些与主题相关的待搜索站点,为主题搜索系统的爬行部分提供一个良好的起始运行环境。2、搜索部分:iRobot系统从众多的实时搜索算法中选择了Fish算法作为实现的核心,并对Fish算法做了改进,加入了关键字的上下文分析能力。iRobot系统的搜索部分采用了多线程搜索的技术,提高了搜索速度。3、结果处理部分:iRobot将存到本地的网页进行处理,去除网页中的无关信息,将网页分类存入数据库并最终提交用户,获取用户反馈。 文章的最后总结了iRobot系统的研究和开发经验,并对未来的工作进行了展望。iRobot系统是一个较高效率的网络信息搜索系统,实现了面向主题的实时搜索功能,具有种子站点的自动扩充功能和友好的人机接口。
引用
收藏
页数:55
共 9 条
[1]
扩展元搜索引擎(EMSE)的系统设计 [D]. 
张俭恭 .
中国科学院研究生院(文献情报中心),
2002
[2]
网络智能知识服务系统设计与实现 [D]. 
王胜海 .
中国科学院研究生院(文献情报中心),
2002
[3]
个性化网络信息检索系统的研究与实现 [D]. 
李广建 .
中国科学院研究生院(文献情报中心),
2002
[4]
Improved Algorithms for Topic Distillation in a Hyperlinked Environment..K.Bharat; M.Henzinger;..1998,
[5]
基于概念空间的文本检索系统 [J].
郑毅 ;
吴斌 ;
史忠植 .
计算机工程与应用, 2002, (12) :67-69+190
[6]
一个WWW智能搜索引擎 [J].
廖明宏 ;
程光明 ;
吴翔虎 .
计算机应用研究, 2001, (05) :29-31
[7]
搜索引擎新思维 [J].
曹玉霞 .
现代图书情报技术, 2000, (05) :33-34+43
[8]
网上信息Agent [J].
赵加欣 ;
陈跃新 .
计算机科学, 2000, (06) :82-86
[9]
移动Agent系统的智能与行为 [J].
董军 ;
潘云鹤 .
计算机科学, 1999, (08) :53-57+73