基于改进最大匹配算法的中文分词粗分方法

被引:85
作者
周俊 [1 ,2 ]
郑中华 [3 ]
张炜 [2 ]
机构
[1] 华中科技大学模具技术国家重点实验室
[2] 安徽博约信息科技有限责任公司
[3] 中国人民大学教育学院
关键词
中文分词; 最大匹配; 广义词; 诱导词集;
D O I
暂无
中图分类号
TP391.12 [];
学科分类号
摘要
中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。
引用
收藏
页码:124 / 128
页数:5
相关论文
共 5 条
[1]
回溯正向匹配中文分词算法 [J].
张劲松 ;
袁健 .
计算机工程与应用, 2009, (22) :132-134
[2]
一种改进的增字最大匹配算法 [J].
金在全 ;
赵照 ;
杜秀全 ;
张东 .
科学技术与工程, 2007, (18) :4761-4764
[3]
一种规则与统计相结合的汉语分词方法 [J].
赵伟 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
计算机应用研究, 2004, (03) :23-25
[4]
基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[5]
利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].
孙茂松 ;
黄昌宁 ;
邹嘉彦 ;
陆方 ;
沈达阳 .
计算机研究与发展, 1997, (05)