Lucene全文检索技术在专利服务平台中的研究与应用

被引:0
作者
陈祥荣
机构
[1] 苏州大学
关键词
专利检索; Lucene; 全文检索; 中文分词; 排序;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
本文从生物医药专利信息服务平台的实际应用需求出发,在深入研究了Lucene全文检索工具包及相关技术基础之上,扩展了Lucene分词模块,改进了Lucene默认的排序算法,并扩展了Lucene的多格式文档处理模块,使本文设计的专利系统支持常用的多种专利文档格式的检索,并最终将以上研究应用于本文介绍的专利服务平台中,有效地改善了专利检索系统的性能。 本文主要工作如下: (1)对Lucene全文检索工具包进行了深入研究,分析了各种常见格式文档处理技术的现状,着重研究了中文分词技术和Lucene的排序机制,为Lucene全文检索技术更好的在专利服务平台中的科学应用,提供了充分的理论依据; (2)针对专利文献特点及专利文献自动分词的难点,提出了一种基于规则和后缀数组相结合的自动分词方法,扩展了Lucene分词模块,实验证明该方法有效地提高了专利分词的查准率和查全率; (3)针对专利文献的特点,改进了传统的TF-IDF公式,提出了一种对位置信息进行加权来计算特征词权重的方法,对检索结果进行了自定义排序,实验证明该排序方法能很好地匹配更相关的文档; (4)为了能够让本文的专利检索系统既不局限于纯文本格式的检索,又不用将文档转换成中间格式,本文设计了一个通用的接口,借助第三方开发的解析工具对不同格式的专利文档(如PDF文档、WORD文档、HTML文档等)进行处理,将其转换成Lucene能够处理的格式,使本文设计的专利检索系统支持对多种格式专利文献的检索; (5)最后将Lucene全文检索技术应用于专利服务系统中,实验及实际使用证明本文实现的专利检索系统,在检索结果排序、查全率、查准率、响应时间等方面得到了有效地提高,极大的改善了专利检索系统的性能。
引用
收藏
页数:70
共 34 条
[1]
汉语交集型歧义切分字段关于专业领域的统计特性 [J].
乔维 ;
孙茂松 .
中文信息学报, 2008, (04) :10-18
[2]
基于双字耦合度的中文分词交叉歧义处理方法 [J].
王思力 ;
王斌 .
中文信息学报, 2007, (05) :14-17+30
[3]
中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[4]
中外全文检索研究的现状及趋势 [J].
方志 ;
夏立新 ;
刘启强 .
图书情报知识, 2006, (05) :71-75
[5]
现代汉语通用分词系统中歧义切分的实用技术 [J].
罗智勇 ;
宋柔 .
计算机研究与发展, 2006, (06) :1122-1128
[6]
基于Lucene的信息检索的研究与应用 [J].
孙西全 ;
马瑞芳 ;
李燕灵 .
情报理论与实践, 2006, (01) :125-128
[7]
基于Lucene的网站全文搜索的设计与实现 [J].
陈庆伟 ;
刘军 .
科技情报开发与经济, 2005, (15) :242-244
[8]
一种基于Lucene检索引擎的全文数据库的研究与实现 [J].
张校乾 ;
金玉玲 ;
侯丽波 .
现代图书情报技术, 2005, (02) :40-43+48
[9]
汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[10]
基于无指导学习策略的无词表条件下的汉语自动分词 [J].
孙茂松 ;
肖明 ;
邹嘉彦 .
计算机学报, 2004, (06) :736-742