基于Nutch技术的主题搜索引擎实现

被引:0
作者
李东海
机构
[1] 吉林大学
关键词
中文分词; 主题搜索引擎; Nutch; 信息预处理;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
面向主题的搜索引擎技术目前已经成为网络信息检索领域新的研究热点之一。不同于不加区分的从网络上收集网页的传统搜索引擎,面向主题的搜索引擎仅仅采集用户指定的、与某一特定主题相关的页面。 Nutch是一个刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch将尽自己最大的努力为用户提供最好的搜索结果,它使用Lucene作为索引和检索的模块。它的抓取器是独立为自身编写的,具有高度标准模块的架构。 本文中的系统是中文主题搜索引擎,中文处理的问题以及主题相关性的问题是系统需要解决的首要问题。考虑到主题搜索引擎在主题判定方面的复杂性,为了保证系统的成功构建,降低工作量以及工作难度,系统基于Nutch开发,嵌入和特定领域相关的专用词典(如army.txt),专业词典和本文描述的主题相关性的判别方法相结合来识别爬行器爬到的网页是否与特定主题相关。本文依据Menczer对三种基于主题采集策略研究的结论,进行了实验和比较,决定本系统采用Best first Crawler方法来解决主题相似度得到采集优先级的问题。 最后,我们对整个算法进行了系统实现,并在不同的网络环境下进行了比较实验。本系统在后台部分能对客户提供的网站信息进行页面抓取和信息预处理,前台部分能利用后台抓取的数据进行信息检索,查询到要查询的信息。
引用
收藏
页数:71
共 3 条
[1]
Topical web crawlers.[J].Filippo Menczer;Gautam Pant;Padmini Srinivasan.ACM Transactions on Internet Technology (TOIT).2004, 4
[2]
<Emphasis Type="Italic">MySpiders</Emphasis>: Evolve Your Own Intelligent Web Crawlers.[J].Gautam Pant;Filippo Menczer.Autonomous Agents and Multi-Agent Systems.2002, 2
[3]
Adaptive retrieval agents: Internalizing local context and scaling up to the Web [J].
Menczer, F ;
Belew, RK .
MACHINE LEARNING, 2000, 39 (2-3) :203-242