面向搜索引擎Lucene的中文分析器

被引:28
作者
胡长春
刘功申
机构
[1] 上海交通大学信息安全工程学院
关键词
分析器; 索引; 检索; 分词; 搜索引擎;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状,根据正向最大匹配切分算法和采用包括基本标准中文词语的词库,实现了自己的分析器。该分析器的分词结果更符合汉语的习惯,并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器,另外在检索速度方面性能提升了2~4倍,在检索召回率方面性能提升了59%。
引用
收藏
页码:157 / 159
页数:3
相关论文
共 2 条
[1]
基于全文搜索的中文搜索引擎设计技术 [J].
陈燕娜 ;
邵志清 .
计算机工程与应用, 2002, (17) :196-198
[2]
汉语自动分词词典机制的实验研究 [J].
孙茂松 ;
左正平 ;
黄昌宁 .
中文信息学报, 2000, (01) :1-6