学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
面向搜索引擎Lucene的中文分析器
被引:28
作者
:
论文数:
引用数:
h-index:
机构:
胡长春
论文数:
引用数:
h-index:
机构:
刘功申
机构
:
[1]
上海交通大学信息安全工程学院
来源
:
计算机工程与应用
|
2009年
/ 12期
关键词
:
分析器;
索引;
检索;
分词;
搜索引擎;
D O I
:
暂无
中图分类号
:
TP391.3 [检索机];
学科分类号
:
080201
[机械制造及其自动化]
;
摘要
:
针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状,根据正向最大匹配切分算法和采用包括基本标准中文词语的词库,实现了自己的分析器。该分析器的分词结果更符合汉语的习惯,并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器,另外在检索速度方面性能提升了2~4倍,在检索召回率方面性能提升了59%。
引用
收藏
页码:157 / 159
页数:3
相关论文
共 2 条
[1]
基于全文搜索的中文搜索引擎设计技术
[J].
陈燕娜
论文数:
0
引用数:
0
h-index:
0
机构:
华东理工大学信息学院,华东理工大学信息学院上海,上海
陈燕娜
;
论文数:
引用数:
h-index:
机构:
邵志清
.
计算机工程与应用,
2002,
(17)
:196
-198
[2]
汉语自动分词词典机制的实验研究
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
左正平
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
中文信息学报,
2000,
(01)
:1
-6
←
1
→
共 2 条
[1]
基于全文搜索的中文搜索引擎设计技术
[J].
陈燕娜
论文数:
0
引用数:
0
h-index:
0
机构:
华东理工大学信息学院,华东理工大学信息学院上海,上海
陈燕娜
;
论文数:
引用数:
h-index:
机构:
邵志清
.
计算机工程与应用,
2002,
(17)
:196
-198
[2]
汉语自动分词词典机制的实验研究
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
左正平
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
中文信息学报,
2000,
(01)
:1
-6
←
1
→