基于Lucene的中文分词模块的设计和实现

被引：24

作者：

罗宁 ^{[1
]}

徐俊刚 ^{[1
]}

郭洪韬 ^{[2
]}

机构：

[1] 中国科学院研究生院

[2] 首都信息发展股份有限公司

来源：

电子技术 | 2012年 / 39卷 / 09期

关键词：

搜索引擎; 中文分词; Lucene; 哈希索引;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力。通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间。下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统。

引用

页码：54 / 56

页数：3