基于Lucene的中文文本分词

被引：12

作者：

王继明

杨国林

机构：

[1] 内蒙古工业大学信息工程学院

来源：

内蒙古工业大学学报(自然科学版) | 2007年 / 03期

关键词：

中文文本分词; 文本检索; Lucene;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

中文文本分词技术是文本挖掘领域的一个重要分支,在中国仍然处于发展阶段.Apache Jakarta的开源工程Lucene是一个十分优秀的基于Java语言的文本检索工具包,在国外已经得到广泛的应用.但是Lucene对中文分词功能的支持不太理想,给Lucene加入好的中文分词功能对Lucene在国内的发展和应用将会起到很大的推动作用.

引用

页码：185 / 188

页数：4

共 5 条

[1] 汉语自动分词的研究现状与困难 [J].