基于Lucene的中文分析器分词性能比较研究

被引:59
作者
义天鹏
陈启安
机构
[1] 厦门大学计算机科学系
关键词
Lucene框架; 搜索引擎; 中文分词; 分析器; 分词速度; 索引; 检索;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对Lucene自带的中文分析器分词性能不理想并且难以选择第三方分析器的问题,研究多种基于Lucene的中文分析器,对语句分词、分词速度、建立索引的空间与时间、检索结果以及检索速度等方面进行比较。分析结果表明,在Lucene框架下,基于词典分词的Paoding分析器总体性能最优,Lucene自带的一元分析器分词速度最快,imdict与ICTCLAS4J分析器在算法效率上存在一定改进空间。
引用
收藏
页码:279 / 282
页数:4
相关论文
共 5 条
[1]
一种改进的最大匹配中文分词算法 [J].
闻玉彪 ;
贾时银 ;
邓世昆 ;
李远方 .
计算机技术与发展, 2011, 21 (10) :92-94+98
[2]
面向搜索引擎Lucene的中文分析器 [J].
胡长春 ;
刘功申 .
计算机工程与应用 , 2009, (12) :157-159
[3]
Lucene分析与应用.[M].吴众欣; 沈家立; 编著.机械工业出版社.2008,
[4]
Lucene+Nutch搜索引擎开发.[M].王学松; 编著.人民邮电出版社.2008,
[5]
搜索引擎技术.[M].赵杰; 著.哈尔滨工程大学出版社.2007,