SVM和最大熵相结合的中文机构名自动识别

被引:0
作者
杨德来
机构
[1] 大连理工大学
关键词
中文机构名; 驱动式; 最大熵; 支持向量机;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
未登录词的识别是汉语自动分词的难点之一,而中文机构名是未登录词的一个重要部分,涉及广泛,种类繁多,形态各异,且绝大多数未收入到词典中。中文机构名的自动识别对提高汉语自动分词和句法分析的精确率都有重要的意义。 本文提出一种支持向量机(Support Vector Machine,SVM)和最大熵相结合的中文机构名自动识别方法。中文机构名识别范围限定在以机构名特征词为结尾的完整机构名。根据机构名的特点,将机构名识别分为两个部分,后界判断和前部标注。对文本中出现在特征词典的词,基于SVM判断是否是机构名特征词(后界判断),从识别出的机构名特征词前词开始向前基于最大熵标注,直到标注到非机构名成分停止标注(前部标注),然后继续在文中重复上述过程。 为了提高后界判断效率,提出驱动式识别方法,对文本中出现的收录在特征词典的词进行后界判断,识别出该词是否是机构名特征词,对识别出的机构名特征词开始前部标注。由此可知,后界判断问题是二值分类问题,而SVM是一种优秀的二值分类器,因此基于SVM的后界判断模型可以有效地解决机构名特征词识别问题。根据机构名特征词的统计分析和语法特征,建立基于SVM的后界判断模型。 机构名前部词组成比较复杂,由于最大熵可以灵活地将许多分散、零碎的知识组合起来,对复杂问题的解决有较好的效果,同时最大熵以较好的效率解决多类分类问题,因此最大熵的前部标注模型有效地解决了比较复杂的中文机构名前部词识别问题。根据机构名前部词的特征和统计分析结果,制定最大熵特征模板,构建特征集并进行参数估计获得基于最大熵的前部标注模型。 实验表明,SVM和最大熵相结合的中文机构名自动识别方法是有效的:系统开式召回率和精确率分别达91.05%,93.59%,F值为92.84%。和当前同类文献相比,本识别系统取得了比较好的识别结果。并且本文所提出的方法具有较强的推广能力,利用本方法还可以对其它未登录词如人名、地名等进行识别。
引用
收藏
页数:60
共 23 条
[1]
基于角色标注的中文机构名识别.[A].俞鸿魁;张华平;刘群;.20th International Conference on Computer Processing of Oriental Languages.2003,
[2]
统计和规则相结合的中文机构名称识别.[A].张艳丽;黄德根;张丽静;杨元生;.全国第六届计算语言学联合学术会议.2001,
[3]
Co-Training的机器学习方法在中文机构名识别中的应用.[A].吴雪军;朱靖波;王会珍;叶娜;张宇新;.全国第七届计算语言学联合学术会议.2003,
[4]
一种基于SVM/RS的中文机构名称自动识别方法 [J].
宇缨 ;
王晓龙 ;
刘秉权 .
电子与信息学报, 2006, (05) :895-900
[5]
基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[6]
采用主动学习策略的组织机构名识别 [J].
冯冲 ;
陈肇雄 ;
黄河燕 .
小型微型计算机系统, 2006, (04) :710-714
[7]
用支持向量机进行中文地名识别的研究 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
小型微型计算机系统, 2005, (08) :1416-1419
[8]
基于互信息的中文姓名识别方法 [J].
黄德根 ;
马玉霞 ;
杨元生 .
大连理工大学学报, 2004, (05) :744-748
[9]
基于最大熵模型的组块分析 [J].
李素建 ;
刘群 ;
杨志峰 .
计算机学报, 2003, (12) :1722-1727
[10]
基于最大熵方法的中英文基本名词短语识别 [J].
周雅倩 ;
郭以昆 ;
黄萱菁 ;
吴立德 .
计算机研究与发展, 2003, (03) :440-446