基于优化最大匹配与统计结合的汉语分词方法

被引:36
作者
刘春辉
金顺福
刘国华
李颖
机构
[1] 燕山大学信息科学与工程学院
关键词
中文信息处理; 词典; 分词; 优化最大匹配方法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。
引用
收藏
页码:124 / 129
页数:6
相关论文
共 15 条
[1]
一种改进的高效分词词典机制 [J].
王东 ;
陈笑蓉 .
贵州大学学报(自然科学版), 2007, (04) :380-384+389
[2]
一种有效解决汉语歧义切分的方法 [J].
朱鉴 ;
张建 ;
李淼 .
计算机工程与应用, 2007, (11) :175-177
[3]
字典与统计相结合的中文分词方法 [J].
翟凤文 ;
赫枫龄 ;
左万利 .
小型微型计算机系统, 2006, (09) :1766-1771
[4]
一种基于多元信息库的自适应汉语歧义切分方法 [J].
朱巧明 ;
温滔 ;
李培蜂 ;
钱培德 .
小型微型计算机系统, 2006, (08) :1597-1600
[5]
基于二字词位图表的汉语自动分词词典机制 [J].
蒋斌 ;
杨超 ;
赵欢 .
湖南大学学报(自然科学版), 2006, (01) :121-123
[6]
一种基于提取上下文信息的分词算法 [J].
曾华琳 ;
李堂秋 ;
史晓东 .
计算机应用, 2005, (09) :2025-2027
[7]
汉语文本中交集型切分歧义的分类处理 [J].
李凯 ;
左万利 ;
吕巍 .
小型微型计算机系统, 2004, (08) :1486-1490
[8]
基于上下文相关的最大概率汉语自动分词算法 [J].
金瑜 ;
陆启明 ;
高峰 .
计算机工程, 2004, (16) :146-148
[9]
Web中文文本分词技术研究 [J].
马玉春 ;
宋瀚涛 .
计算机应用, 2004, (04) :134-135+155
[10]
利用覆盖歧义检测法和统计语言模型进行汉语自动分词 [J].
王显芳 ;
杜利民 .
电子与信息学报, 2003, (09) :1168-1173