中文Base NP识别:错误驱动的组合分类器方法

被引:7
作者
徐昉 [1 ]
宗成庆 [1 ]
王霞 [2 ]
机构
[1] 中国科学院自动化研究所模式识别国家重点实验室
[2] 诺基亚中国研究中心
关键词
计算机应用; 中文信息处理; 错误驱动; 中文BaseNP识别; 组合分类器;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
本文采用一种新的错误驱动的组合分类器方法来实现中文Base NP识别。本文首先对中文和英文BaseNP识别技术现状进行了简要分析和概述,明确了中文Base NP识别的任务,然后,基于前人的工作提出了错误驱动的组合分类器方法,其基本思路是:通过对比两种不同类型的分类器—基于转化的方法和条件随机场方法的分类结果,再利用支持向量机学习其中的错误规律,对两分类器产生的不同结果进行纠错,从而达到提高系统整体性能的效果。我们在宾州中文树库转化得到的Base NP语料集上进行了Base NP识别交叉验证实验,与单独使用基于转化的方法、条件随机场方法以及支持向量机方法相比较,错误驱动的组合分类器方法的实验结果都有所提高,最佳结果F值达到了89.72%,相对于文中Base NP识别的其他方法,最大提高幅度为2.35%。
引用
收藏
页码:115 / 119
页数:5
相关论文
共 4 条
[1]   基于最大熵模型的组块分析 [J].
李素建 ;
刘群 ;
杨志峰 .
计算机学报, 2003, (12) :1722-1727
[2]   浅层句法分析方法概述 [J].
孙宏林 ;
俞士汶 .
当代语言学, 2000, (02) :74-83+124
[3]  
统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning, 2005
[4]  
A brief introduction to boosting .2 R.E.Schapire. Proceedings of theSixteenth International Joint Conference on ArtificialIntelligence . 1999