中文Base NP识别:错误驱动的组合分类器方法

被引：7

作者：

徐昉 ^{[1
]}

宗成庆 ^{[1
]}

王霞 ^{[2
]}

机构：

[1] 中国科学院自动化研究所模式识别国家重点实验室

[2] 诺基亚中国研究中心

来源：

中文信息学报 | 2007年 / 01期

关键词：

计算机应用; 中文信息处理; 错误驱动; 中文BaseNP识别; 组合分类器;

D O I：

暂无

中图分类号：

TP391.43 [];

学科分类号：

0811 ; 081101 ; 081104 ; 1405 ;

摘要：

本文采用一种新的错误驱动的组合分类器方法来实现中文Base NP识别。本文首先对中文和英文BaseNP识别技术现状进行了简要分析和概述,明确了中文Base NP识别的任务,然后,基于前人的工作提出了错误驱动的组合分类器方法,其基本思路是:通过对比两种不同类型的分类器—基于转化的方法和条件随机场方法的分类结果,再利用支持向量机学习其中的错误规律,对两分类器产生的不同结果进行纠错,从而达到提高系统整体性能的效果。我们在宾州中文树库转化得到的Base NP语料集上进行了Base NP识别交叉验证实验,与单独使用基于转化的方法、条件随机场方法以及支持向量机方法相比较,错误驱动的组合分类器方法的实验结果都有所提高,最佳结果F值达到了89.72%,相对于文中Base NP识别的其他方法,最大提高幅度为2.35%。

引用

页码：115 / 119

页数：5

共 4 条

[1] 基于最大熵模型的组块分析 [J].

李素建 ;

刘群 ;

杨志峰 .

计算机学报, 2003, (12) :1722-1727

[2] 浅层句法分析方法概述 [J].

孙宏林 ;

俞士汶 .

当代语言学, 2000, (02) :74-83+124

[3]

统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning, 2005

[4]

A brief introduction to boosting .2 R.E.Schapire. Proceedings of theSixteenth International Joint Conference on ArtificialIntelligence . 1999

← 1 →