一种基于SVM和规则消除组合型歧义的算法

被引:2
作者
刘禹孜
何中市
机构
[1] 重庆大学计算机学院
关键词
自然语言处理; 中文分词; 组合型歧义; 支持向量机; 规则;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.
引用
收藏
页码:53 / 56
页数:4
相关论文
共 7 条
[1]   支持向量机的若干新进展 [J].
王国胜 ;
钟义信 .
电子学报, 2001, (10) :1397-1400
[2]   消解中文三字长交集型分词歧义的算法 [J].
孙茂松,左正平,黄昌宁 .
清华大学学报(自然科学版), 1999, (05) :102-104+108
[3]   高频最大交集型歧义切分字段在汉语自动分词中的作用 [J].
孙茂松 ;
左正平 ;
邹嘉彦 .
中文信息学报, 1999, (01) :28-35
[4]   利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].
孙茂松 ;
黄昌宁 ;
邹嘉彦 ;
陆方 ;
沈达阳 .
计算机研究与发展 , 1997, (05) :14-21
[5]   汉语自动分词研究中的苦干理论问题 [J].
孙茂松,邹嘉彦 .
语言文字应用, 1995, (04) :40-46
[6]  
统计学习理论[M]. 电子工业出版社 , (美)瓦普尼克(VladimirN.Vapnik)著, 2004
[7]  
心脑计算举要[M]. 清华大学出版社 , 周昌乐编著, 2003