基于Lucene的web站内英文PDF文档全文检索研究

被引:0
作者
张宏松
机构
[1] 辽宁工程技术大学
关键词
国际化; PDF文档; 全文检索; web;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着国际化的发展,辽宁工程技术大学正在兴建一个国际学术期刊资料库,里面需要大量的英文PDF文档资料,本论文的设计目的就是要给这个资料库提供一个高质量的web全文检索服务,即建立一个通用的、专业的英文论文网站站内全文检索工具,在web站点上搜索到适合需求的专业论文后,将其填充到我校的资料库中。 Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以为一个网站提供站内PDF文档的全文检索功能。本论文探讨了使用Lucene建造一个通用的Web站点PDF文档全文检索工具的过程,在全文的最后给出了实现,并对在构建系统中应注意的若干问题进行了详细探讨。
引用
收藏
页数:71
共 17 条
[1]
基于Lucene的全文检索系统的研究与应用 [D]. 
张校乾 .
大连理工大学,
2005
[2]
数据库技术与应用.[M].王珊[等]编著;.清华大学出版社.2005,
[3]
信息管理科学导论.[M].胡昌平[著];.高等教育出版社.2001,
[4]
网络信息资源搜集与利用.[M].孙建军主编;.东南大学出版社.2000,
[5]
Java问答式教程.[M].戴梅萼等编著;.清华大学出版社.1999,
[6]
Java语言编程技术.[M].王克宏主编;郁欣等编著;.清华大学出版社.1997,
[7]
Java语言及应用.[M].张卫民等编著;.清华大学出版社.1996,
[8]
学科信息门户信息组织的评价 [J].
黄如花 .
武汉大学学报(社会科学版), 2003, (05) :653-657
[9]
Web搜索引擎与全文检索技术 [J].
李玮 ;
李利 ;
不详 .
情报科学 , 2003, (05) :558-560
[10]
面向网络的全文检索中索引文件的组织 [J].
颜维龙 ;
盖杰 ;
武港山 ;
袁春风 .
计算机应用研究, 2002, (11) :124-126+146