汉语自动分词的研究现状与困难

被引：60

作者：

张春霞

郝天永

机构：

[1] 中国科学院计算技术研究所

[2] 中国科学院计算技术研究所北京中国科学院研究生院

[3] 北京

来源：

系统仿真学报 | 2005年 / 01期

关键词：

汉语自动分词; 形式化模型; 未登录词; 分词评测;

D O I：

10.16182/j.cnki.joss.2005.01.036

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

汉语自动分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。尽管已被研究了二十多年,分词仍然是中文信息处理的瓶颈问题。基于对汉语自动分词研究的现状分析,构建了自动分词的形式化模型,论述了影响分词的诸多因素,分析了分词中存在的两个最大困难及其解决方法。最后指出了目前分词研究中尤其是在分词评测方面存在的问题以及未来的研究工作。

引用

页码：138 / 143+147 +147

页数：7

共 34 条

[1] 全二分最大匹配快速分词算法 [J].