中文事件可信度信息标注和抽取方法的研究

被引:0
作者
曹媛
机构
[1] 苏州大学
关键词
中文事件; 可信度; 三维; 标注; 转换规则; 抽取;
D O I
暂无
年度学位
2014
学位类型
硕士
摘要
事件的可信度表示文本中事件的事实性状态,对理解篇章中事件的确切语义起着至关重要的作用。目前,只有英文方面有事件可信度信息研究和少量确定性信息语料库,中文方面暂时还未起步。因此,对中文事件可信度的研究有着重要意义和作用。 本文主要研究中文事件可信度相关信息的表示、标注及其抽取方法,具体的研究内容包括以下三个方面。 第一,本文针对中文语言的特点,从词汇和句子结构两个方面研究句子级别的中文事件可信度影响因素,提出了五类中文事件可信度相关信息及其标注规则;并基于ACE2005中文事件语料库标注了事件可信度信息。 第二,本文提出了中文事件可信度的三维表示体系,该体系将中文事件的可信度分解成(极性、级别、时态)组成的三元组;同时提出了基于(极性、级别、时态)三元组作为中间桥梁的转换方法,该方法将原始的五类中文事件可信度相关信息转换成三元组,再把该三元组转换成事件可信度。实验证明,该三维可信度表示体系可以提高事件可信度分析的性能。 第三,本文以中文事件选择谓词为例,提出了利用有效句法特征的有监督可信度信息抽取方法和基于双视图的半监督可信度信息标注方法。前者借鉴英文中不确定信息的抽取方法,利用词袋特征和句法特征来抽取中文事件选择谓词;后者基于少量标注样本,利用分类器视图和模式视图协同对未标注样本进行标注。实验证明,这两种方法均取得了较好的效果。 本文针对中文事件可信度进行了相关的研究和探索,标注的语料库和抽取方法的研究对今后中文事件可信度的研究具有重要的参考价值。
引用
收藏
页数:72
共 9 条
[1]
主观性与主观化简析 [J].
曹韵 .
黑龙江教育学院学报, 2013, 32 (04) :137-138
[2]
认识情态与传信情态 [J].
冯军伟 .
云南师范大学学报(对外汉语教学与研究版), 2012, 10 (04) :43-48
[3]
半监督学习研究进展 [J].
梁吉业 ;
高嘉伟 ;
常瑜 .
山西大学学报(自然科学版), 2009, 32 (04) :528-534
[4]
文学语言的不确定性.[J].刘碧辉;.广东培正学院学报.2008, 04
[5]
文学语言的不确定性.[J].刘碧辉;.广东培正学院学报.2008, 04
[6]
FactBank: a corpus annotated with event factuality [J].
Sauri, Roser ;
Pustejovsky, James .
LANGUAGE RESOURCES AND EVALUATION, 2009, 43 (03) :227-268
[7]
Semi-supervised graph clustering: a kernel approach [J].
Kulis, Brian ;
Basu, Sugato ;
Dhillon, Inderjit ;
Mooney, Raymond .
MACHINE LEARNING, 2009, 74 (01) :1-22
[8]
Annotating Expressions of Opinions and Emotions in Language.[J].Janyce Wiebe;Theresa Wilson;Claire Cardie.Language Resources and Evaluation.2006, 2-3
[9]
协同学习研究及其在分类问题中的应用 [D]. 
徐京雷 .
山东师范大学,
2013