基于Lucene的地名数据库快速检索系统

被引:24
作者
张文元
周世宇
谈国新
机构
[1] 华中师范大学国家文化产业研究中心
关键词
Lucene; 地名; 全文检索; 数据库; 中文分词; 相关度排序;
D O I
暂无
中图分类号
TP311.13 []; TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
引用
收藏
页码:1756 / 1761
页数:6
相关论文
共 16 条
[1]
LUCENE搜索算法剖析及优化研究 [J].
任树怀 .
图书馆杂志, 2014, 33 (12) :17-23
[2]
GIS地名搜索系统的关键技术设计与实现 [J].
陈德权 .
测绘与空间地理信息, 2013, 36 (08) :58-60
[3]
基于Lucene的中文分析器分词性能比较研究 [J].
义天鹏 ;
陈启安 .
计算机工程, 2012, 38 (22) :279-282
[4]
基于Solr的分布式全文检索系统的研究与实现 [J].
李戴维 ;
李宁 .
计算机与现代化 , 2012, (11) :171-176
[5]
统计与词典相结合的领域自适应中文分词 [J].
张梅山 ;
邓知龙 ;
车万翔 ;
刘挺 .
中文信息学报, 2012, (02) :8-12
[6]
一个多线程全文检索系统的构建 [J].
李敏 ;
黄凯 .
长江大学学报(自然科学版)理工卷, 2010, 7 (03) :552-554+756
[7]
国家地名数据库管理系统的设计与实现 [J].
刘海珍 ;
姬炜 ;
李志刚 ;
王建春 .
中国地名, 2010, (09) :58-59
[8]
基于Lucene的中文倒排索引技术的研究 [J].
郑榕增 ;
林世平 .
计算机技术与发展, 2010, 20 (03) :80-83
[9]
一种基于字词联合解码的中文分词方法 [J].
宋彦 ;
蔡东风 ;
张桂平 ;
赵海 .
软件学报, 2009, 20 (09) :2366-2375
[10]
基于Lucene全文检索引擎的应用与改进 [J].
吴青 ;
夏红霞 ;
赵广辉 ;
刘春燕 .
武汉理工大学学报, 2008, (07) :145-148