多特征文本蕴涵识别研究

被引:2
作者
赵红燕 [1 ]
刘鹏 [2 ]
李茹 [3 ,4 ]
王智强 [3 ]
机构
[1] 太原科技大学计算机科学与技术学院
[2] 中国电子科技集团公司第二研究所
[3] 山西大学计算机与信息技术学院
[4] 山西大学计算智能与中文信息处理教育部重点实验室
关键词
文本蕴含识别; 句法依存关系; FrameNet;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本蕴涵识别是解决自然语言中存在的同义异形问题的有效途径。虽然国内外学者已经提出了很多文本蕴涵识别模型,但影响文本蕴涵识别的因素错综复杂,识别准确率普遍不高。该文把文本蕴涵识别看作二元分类问题,抽取词汇特征、句法依存关系特征及FrameNet语义知识库特征的多种特征构造特征矩阵,训练SVM分类器,实现文本蕴涵识别。该方法在国际文本蕴涵识别技术评测RTE3的测试集上进行测试,蕴涵正例识别准确率达到了78.1%,高于RTE3评测2-ways的最高结果。
引用
收藏
页码:109 / 115
页数:7
相关论文
共 18 条
[1]  
Erratum: Recognizing textual entailment: Rational, evaluation and approaches (Natural Language Engineering (2009) 15:4 (i-xvii) DOI: 10.1017/S1351324909990209). Dagan, Ido,Dolan, Bill,Magnini, Bernardo,Roth, Dan. Natural Language Engineering . 2010
[2]   基于FrameNet框架关系的文本蕴含识别 [J].
张鹏 ;
李国臣 ;
李茹 ;
刘海静 ;
石向荣 ;
Collin Baker .
中文信息学报, 2012, (02) :46-50
[3]   文本蕴涵的推理模型与识别模型 [J].
袁毓林 ;
王明华 .
中文信息学报, 2010, 24 (02) :3-13
[4]  
Probabilistic Textual Entailment:Generic Applied Modeling of Language Variability. Ido Dagan,Oren Glickman. Proceedings of PASCAL workshop on Learning Methods for Text Understanding and Mining . 2004
[5]  
Integrating Pattern-based and Distributional Similarity Methods for Lexical Entailment Acquisition. Shachar Mirkin,Ido Dagan,Maayan Geffet. Proceedings of COLING-ACL 2006 . 2006
[6]  
http://www.csie.ntu.edu.tw/-cjlin/ .
[7]  
http://www.pudn.com/downloads521/sourcecode/windows/dotnet/detail2161512.html .
[8]  
Stanford POStagger. http://nlp.stanford.edu/software/tagger.shtml .
[9]  
Stanford Parser. http://nlp.stanford.edu/software/lex_parser.shtml .
[10]  
Graph-Based Lexicon Expansion with Sparsity-Inducing Penalties. Dipanjan Das,Noah A Smith. Proceedings of NAACL . 2012