汉语自动分词的研究现状与困难

被引:60
作者
张春霞
郝天永
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院计算技术研究所 北京 中国科学院研究生院
[3] 北京
关键词
汉语自动分词; 形式化模型; 未登录词; 分词评测;
D O I
10.16182/j.cnki.joss.2005.01.036
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
汉语自动分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。尽管已被研究了二十多年,分词仍然是中文信息处理的瓶颈问题。基于对汉语自动分词研究的现状分析,构建了自动分词的形式化模型,论述了影响分词的诸多因素,分析了分词中存在的两个最大困难及其解决方法。最后指出了目前分词研究中尤其是在分词评测方面存在的问题以及未来的研究工作。
引用
收藏
页码:138 / 143+147 +147
页数:7
相关论文
共 34 条
[1]   全二分最大匹配快速分词算法 [J].
李振星 ;
徐泽平 ;
唐卫清 ;
唐荣锡 .
计算机工程与应用, 2002, (11) :106-109
[2]   分词中的歧义处理 [J].
谭琼 ;
史忠植 ;
不详 .
计算机工程与应用 , 2002, (11) :125-127+236
[3]   基于分解与动态规划策略的汉语未登录词识别 [J].
吕雅娟 ;
赵铁军 ;
杨沐昀 ;
于浩 ;
李生 .
中文信息学报, 2001, (01) :28-33
[4]   基于分解与动态规划策略的汉语未登录词识别 [J].
吕雅娟 ;
赵铁军 ;
杨沐昀 ;
于浩 ;
李生 .
中文信息学报, 2001, (01) :28-33
[5]   提高汉语自动分词精度的多步处理策略 [J].
赵铁军 ;
吕雅娟 ;
于浩 ;
杨沐昀 ;
刘芳 .
中文信息学报, 2001, (01) :13-18
[6]   提高汉语自动分词精度的多步处理策略 [J].
赵铁军 ;
吕雅娟 ;
于浩 ;
杨沐昀 ;
刘芳 .
中文信息学报, 2001, (01) :13-18
[7]   现状和设想——试论中文信息处理与现代汉语研究 [J].
许嘉璐 .
中文信息学报, 2001, (02) :1-8
[8]   现状和设想——试论中文信息处理与现代汉语研究 [J].
许嘉璐 .
中文信息学报, 2001, (02) :1-8
[9]   确定切词单位的某些非语法因素 [J].
冯志伟 .
中文信息学报, 2001, (05) :8-14+51
[10]   一种基于EM非监督训练的自组织分词歧义解决方案 [J].
王伟 ;
钟义信 ;
孙建 ;
杨力 .
中文信息学报, 2001, (02) :38-44