自底向上事件抽取系统(英文)

被引:2
作者
Xiao DING
Bing QIN
Ting LIU
机构
[1] ResearchCenterforSocialComputingandInformationRetrieval,HarbinInstituteofTechnology
关键词
事件抽取; 无监督学习; 自底向上;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
目的:本文研究自底向上的事件抽取方法。在无需预先人工给定事件类型体系的基础上,实现事件类型体系的自动构建及事件类型识别和事件元素的抽取。创新点:本文首次提出基于聚类的事件类型自动发现方法。和传统事件抽取技术相比,该方法无需预先定义事件类型,无需先验的领域知识。因此,该方法是对领域移植的一个尝试,尤其适用于知识和资源有限的领域。方法:该方法依据谓语动词是对领域事件刻画的重要单元的特点,利用依存句法信息抽取领域事件词,利用《知网》(How Net)对领域事件词进行聚类从而获取不同的事件类型(图2),随后进行事件元素的抽取。本文提出基于Bootstrapping的事件元素抽取框架,该框架核心有三部分:(1)模式获取:该模块负责将事件种子放在互联网上去检索,获得事件实例,并根据事件实例,按照一定的规则生成初始的事件模式(图3);(2)模式泛化:初始事件模式由于过于死板,导致遗漏掉很多事件的匹配,因此,本文设计模式泛化方法,将原有的事件模式按照一定规则,进行一定程度上的泛化,使其在保证准确率不变的情况下尽量提高召回率(算法3);(3)模式过滤:经泛化后的模式会在一定程度上引入噪声,因此,本文提出一套过滤规则,尽量减少泛化带来的噪声(表3)。结论:提出自底向上的事件抽取系统。该系统在公开的ACE语料数据集上取得了优于当前最好基线方法的结果。同时在我们手工构造的音乐领域和金融领域数据集上也取得了优秀的实验结果。这表明该方法可以很好地进行领域自适应。
引用
收藏
页码:541 / 553
页数:13
相关论文
共 49 条
[1]  
Background and overview for KDD Cup 2002 task 1[J] . Alexander Yeh,Lynette Hirschman,Alexander Morgan. &nbspACM SIGKDD Explorations Newsletter . 2002 (2)
[2]   SUBDIVIDING VERBS TO IMPROVE SYNTACTIC PARSING [J].
Liu Ting Ma Jinshan Zhang Huipeng Li Sheng Information Retrieval LabHarbin Institute of TechnologyHarbin China .
JournalofElectronics(China), 2007, (03) :347-352
[3]  
On Clustering Validation Techniques[J] . Maria Halkidi,Yannis Batistakis,Michalis Vazirgiannis. &nbspJournal of Intelligent Information Systems . 2001 (2)
[4]   Ontology-based fuzzy event extraction agent for Chinese e-news summarization [J].
Lee, CS ;
Chen, YJ ;
Jian, ZW .
EXPERT SYSTEMS WITH APPLICATIONS, 2003, 25 (03) :431-447
[5]  
Learning Information Extraction Rules for Semi-Structured and Free Text[J] . Stephen Soderland. &nbspMachine Learning . 1999 (1)
[6]  
Algorithms for the Longest Common Subsequence Problem[J] . Daniel S. Hirschberg. &nbspJournal of the ACM (JACM) . 1977 (4)
[7]   音乐领域典型事件抽取方法研究 [J].
丁效 ;
宋凡 ;
秦兵 ;
刘挺 .
中文信息学报, 2011, 25 (02) :15-20
[8]  
Multilingual dependency-based syntactic andsemantic parsing. Che Wanxiang,Li Zhenghua,Li Yongqiang, et al. Proceedings of the Thirteenth Conference on Computational Natural LanguageLearning . 2009
[9]  
An Algorithm for Finding Best Matches in Logarithmic Expected Time[J] . Jerome H. Friedman,Jon Louis Bentley,Raphael Ari Finkel. &nbspACM Transactions on Mathematical Software (TOMS) . 1977 (3)
[10]  
Openinformation extraction from the web. M. Banko,M. Cafarella,S. Soderland,M. Broadhead,O. Etzioni. Proceedings of IJCAI . 2007