中文新闻语料中的时间短语识别方法研究

被引:0
作者
赵国荣
机构
[1] 山西大学
关键词
时间短语识别; 模式匹配; 事件时间短语; 决策树;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
在自然语言中,时间信息是一种重要的信息,它是一个事件的重要组成部分,研究表明,它在文本信息中所占的比重仅次于专有名词。在日常生活中,当人们阅读一篇新闻时,他们总是要把文章的内容和时间信息联系起来,通过文章中的时间信息可以了解一个事件的开始、进行、结束以及事件发生的频率,把握一个事件发生的全过程,了解事件发展的前因后果,作为进一步决策的重要依据。因此,时间相关信息的处理是自然语言理解过程中一个非常重要的部分,它对于信息抽取、信息检索、问答系统、主题发现和跟踪、文本摘要和数据挖掘领域都具有重大的意义。 本文的研究重点是明显时间信息中的事件时间短语。在研究中,我们发现,通过事件和时间指示词组合的时间短语是文本中表达明显时间信息的短语,我们把它定义为事件时间短语,它在新闻语料中大量的出现。 本文的主要工作如下: 1.确定识别时间短语的类型:在分析真实语料的基础上,以ACE(Automation Content Extraction)评测标准ACE Chinese Annotation Guidelines for TIMEX2(Summary)为参照,确定本文识别短语的类型; 2.对文本进行预处理包括分词、词性标注; 3.进行语料标注,提取事件时间短语和一般时间短语的规则以及事件时间短语的边界决策特征; 4.针对文本中不同时间短语的特点采用不同的方法识别: 识别事件时间短语:本文的事件时间短语识别是一个重点内容,对它的识别采用模式匹配和决策树相结合的方法,模式匹配的方法不仅充分的分析了事件时间短语的内部特征,而且还大幅提高了事件时间短语识别的召回率;使用决策树的方法可以通过边界决策特征来提高事件时间短语识别的精确率;
引用
收藏
页数:49
共 12 条
[1]
基于最大熵模型的中文人名识别方法研究 [D]. 
乔羽 .
山西大学,
2005
[2]
基于时空分析的线索性事件的抽取与集成系统研究.[A].吴平博;陈群秀;马亮;.全国第八届计算语言学联合学术会议(JSCL-2005).2005,
[3]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
[4]
AE1 - AN EXTENSION MATRIX APPROXIMATE METHOD FOR THE GENERAL COVERING PROBLEM [J].
HONG, JR .
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1985, 14 (06) :421-437
[5]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[6]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[7]
结合决策树方法的中文姓名识别 [J].
王振华 ;
孔祥龙 ;
陆汝占 ;
刘绍明 .
中文信息学报, 2004, (06) :10-15
[8]
基于转换的时间-事件关系映射 [J].
王昀 ;
苑春法 .
中文信息学报, 2004, (04) :23-30
[9]
基于决策树的汉语未登录词识别 [J].
秦文 ;
苑春法 .
中文信息学报, 2004, (01) :14-19
[10]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66