实现Lucene接口的中文分词器的比较研究

被引:11
作者
黄翼彪 [1 ]
机构
[1] 郑州大学信息管理系
关键词
Lucene; 中文分词; 分词器; mmseg4j; 庖丁解牛;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、mmseg4j、imdict-chinese-analyzer和庖丁解牛6种主流中文分词器分别进行测试,并根据测试结果对分词效果做出评估。
引用
收藏
页码:246 / 247
页数:2
相关论文
共 4 条
[1]   Lucene.net中文分词算法分析 [J].
周拴龙 .
郑州大学学报(理学版), 2011, 43 (03) :73-77
[2]   一种基于Lucene的中文分词的设计与测试 [J].
王志嘉 ;
薛质 .
信息技术, 2010, 34 (12) :50-54
[3]   Lucene的全文检索的研究与应用 [J].
李永春 ;
丁华福 .
计算机技术与发展, 2010, 20 (02) :12-15
[4]  
Google Project Hosting .2 http://code.google.com/p/mmseg4j . 2012