基于Lucene的中文文本分词

被引:12
作者
王继明
杨国林
机构
[1] 内蒙古工业大学信息工程学院
关键词
中文文本分词; 文本检索; Lucene;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文文本分词技术是文本挖掘领域的一个重要分支,在中国仍然处于发展阶段.Apache Jakarta的开源工程Lucene是一个十分优秀的基于Java语言的文本检索工具包,在国外已经得到广泛的应用.但是Lucene对中文分词功能的支持不太理想,给Lucene加入好的中文分词功能对Lucene在国内的发展和应用将会起到很大的推动作用.
引用
收藏
页码:185 / 188
页数:4
相关论文
共 5 条
[1]   汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[2]   汉语自动分词研究及其在信息检索中的应用 [J].
曹倩 ;
丁艳 ;
王超 ;
潘金贵 .
计算机应用研究, 2004, (05) :71-74+91
[3]   自然语言理解研究略述 [J].
胡俊华 ;
杨波 ;
李金屏 .
济南大学学报(社会科学版), 2001, (05) :58-62
[4]   一种基于EM非监督训练的自组织分词歧义解决方案 [J].
王伟 ;
钟义信 ;
孙建 ;
杨力 .
中文信息学报, 2001, (02) :38-44
[5]  
Information retrieval and artificial intelligence[J] . Karen Sparck Jones.Artificial Intelligence . 1999 (1)