基于最大熵原则的汉语语义角色分类

被引:14
作者
丁伟伟
常宝宝
机构
[1] 北京大学计算语言学研究所
关键词
计算机应用; 中文信息处理; 语义角色分类; 最大熵; 特征; 上下文; 窗口; 贪心策略;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域。与英语方面的研究相比,汉语方面的工作还不是很充分。该文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面———语义角色分类进行了深入的研究。在提出了一些新的特征之后,该文还充分利用了语义角色之间的相关性,提取语义角色的上下文特征,从而提高标记的准确率;此外,通过对不同特征的单独研究,笔者发现了不同特征取得最优值时的窗口大小差别很大。发现这一现象后,笔者设计了一种基于贪心策略的选择算法,对不同的特征选择不同的窗口大小,使得标记结果进一步提高。在综合采用了以上的策略之后,笔者的汉语语义角色分类系统可以达到95.00%的准确率,比前人有较为显著的提升。从而证明了笔者的方法是有效的。
引用
收藏
页码:20 / 26+68 +68
页数:8
相关论文
共 6 条
[1]   基于条件随机场的语义角色标注(英文) [J].
于江德 ;
樊孝忠 ;
庞文博 ;
余正涛 .
Journal of Southeast University(English Edition), 2007, (03) :361-364
[2]   基于最大熵分类器的语义角色标注 [J].
刘挺 ;
车万翔 ;
李生 .
软件学报, 2007, (03) :565-573
[3]   中文语义角色标注的特征工程 [J].
刘怀军 ;
车万翔 ;
刘挺 .
中文信息学报, 2007, (01) :79-84
[4]   基于SVM的疑问句问点语义角色标注 [J].
吕德新 ;
张桂平 ;
蔡东风 ;
朱江涛 .
沈阳航空工业学院学报, 2006, (01) :44-46
[5]  
Support Vector Learning for Semantic Argument Classification[J] . Sameer Pradhan,Kadri Hacioglu,Valerie Krugler,Wayne Ward,James H. Martin,Daniel Jurafsky.Machine Learning . 2005 (1)
[6]   Automatic Labeling of semantic roles [J].
Gildea, D ;
Jurafskyy, D .
COMPUTATIONAL LINGUISTICS, 2002, 28 (03) :245-288