学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
实现Lucene接口的中文分词器的比较研究
被引:11
作者
:
论文数:
引用数:
h-index:
机构:
黄翼彪
[
1
]
机构
:
[1]
郑州大学信息管理系
来源
:
科技信息
|
2012年
/ 12期
关键词
:
Lucene;
中文分词;
分词器;
mmseg4j;
庖丁解牛;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
Lucene自身提供的StandardAnalyzer虽然已经具备中文分词的功能,但是其分词正确率和切分速度不能够满足大多数应用的需要。为更好处理中文信息,必须引用独立的外部中文分词器。基于这种需求,文章对ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、mmseg4j、imdict-chinese-analyzer和庖丁解牛6种主流中文分词器分别进行测试,并根据测试结果对分词效果做出评估。
引用
收藏
页码:246 / 247
页数:2
相关论文
共 4 条
[1]
Lucene.net中文分词算法分析
[J].
周拴龙
论文数:
0
引用数:
0
h-index:
0
机构:
郑州大学信息管理系
周拴龙
.
郑州大学学报(理学版),
2011,
43
(03)
:73
-77
[2]
一种基于Lucene的中文分词的设计与测试
[J].
论文数:
引用数:
h-index:
机构:
王志嘉
;
论文数:
引用数:
h-index:
机构:
薛质
.
信息技术,
2010,
34
(12)
:50
-54
[3]
Lucene的全文检索的研究与应用
[J].
李永春
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨理工大学计算机学院
哈尔滨理工大学计算机学院
李永春
;
论文数:
引用数:
h-index:
机构:
丁华福
.
计算机技术与发展,
2010,
20
(02)
:12
-15
[4]
Google Project Hosting .2 http://code.google.com/p/mmseg4j . 2012
←
1
→
共 4 条
[1]
Lucene.net中文分词算法分析
[J].
周拴龙
论文数:
0
引用数:
0
h-index:
0
机构:
郑州大学信息管理系
周拴龙
.
郑州大学学报(理学版),
2011,
43
(03)
:73
-77
[2]
一种基于Lucene的中文分词的设计与测试
[J].
论文数:
引用数:
h-index:
机构:
王志嘉
;
论文数:
引用数:
h-index:
机构:
薛质
.
信息技术,
2010,
34
(12)
:50
-54
[3]
Lucene的全文检索的研究与应用
[J].
李永春
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨理工大学计算机学院
哈尔滨理工大学计算机学院
李永春
;
论文数:
引用数:
h-index:
机构:
丁华福
.
计算机技术与发展,
2010,
20
(02)
:12
-15
[4]
Google Project Hosting .2 http://code.google.com/p/mmseg4j . 2012
←
1
→