基于中文语法特征的开放领域实体关系抽取

被引:0
作者
郑珊珊
机构
[1] 华东师范大学
关键词
中文语法; 无监督; 关系表述; 论元模式; 依存距离;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
目前国内外对于开放领域的实体关系元组抽取主要集中在半监督和无监督的方法上。现有的无监督的方法主要是从实体对出发改进各种聚类特征和算法来提高聚类效果。本文则另辟蹊径,以关系表述为起点,根据对中文的语法句法结构的研究,提出并实现了一种结合中文语法特点且以关系表述为起点的开放领域无监督中文关系抽取方法。 本文首先根据Automated Content Extraction的中文关系表述分类,以及中文的句型、句子成分和词的特点,针对以动词为中心的状态谓语(Stative Prediction)、名词性短语中的前修饰(Premod)和模式化(Formulaic)这三种不同的类型提出各自的关系表述抽取方法。接着,根据关系表述的类型及其所含有的实体数目,确定其两个论元所处的位置,即论元模式,结合论元过滤规则抽取两个论元,组成实体关系元组。最后,对抽取出来的关系表述按其类型进行裁剪,确定该关系表述的核心关系词,并根据自定义的依存类型相关度和依存距离计算由关系表述核心词和两个论元构成的实体关系元组的语义距离,并用阈值来评估关系元组的正确性。 实验结果表明,根据关系表述类型分类抽取关系表述是可行有效的,总体准确率高达99%,而F值也高于80%。同时,85.55%的论元抽取准确率和74.09%的F值也表明论元抽取模块是较准确可行的。最后,实体关系元组评估后88.39%的准确率和74.80%的召回率不仅证明了用依存距离来评估实体关系元组的准确率和有效性,同时也表明本文的方法较基于卷积树核的无监督层次聚类算法有更好的性能。
引用
收藏
页数:72
共 14 条
[1]
命名实体间语义关系抽取研究 [D]. 
钱龙华 .
苏州大学,
2009
[2]
无监督的中文实体关系抽取研究 [D]. 
王晶 .
华东师范大学,
2012
[3]
语言学特征在中文命名实体间语义关系抽取中的应用研究 [D]. 
季元叶 .
苏州大学,
2010
[4]
无监督关系抽取方法研究 [D]. 
张志田 .
哈尔滨工业大学,
2007
[5]
Employing Constituent Dependency Information for Tree Kernel-Based Semantic Relation Extraction between Named Entities.[J].Longhua Qian;Guodong Zhou;Qiaoming Zhu.ACM Transactions on Asian Language Information Processing (TALIP).2011, 3
[6]
未定义类型的关系抽取的半监督学习框架研究 [J].
程显毅 ;
朱倩 .
南京大学学报(自然科学版), 2012, 48 (04) :466-474
[7]
开放式文本信息抽取 [J].
赵军 ;
刘康 ;
周光有 ;
蔡黎 .
中文信息学报, 2011, (06) :98-110
[8]
基于卷积树核的无指导中文实体关系抽取研究 [J].
黄晨 ;
钱龙华 ;
周国栋 ;
朱巧明 .
中文信息学报, 2010, (04) :11-17
[9]
语义关系抽取发展现状及抽取方法的研究 [J].
黄晨 .
福建电脑, 2009, 25 (06) :45-46
[10]
汉语自动句法分析的理论与方法 [J].
刘挺 ;
马金山 .
当代语言学, 2009, 11 (02) :100-112+189