信息抽取中关键技术的研究

被引:0
作者
张素香
机构
[1] 北京邮电大学
关键词
命名实体识别; 实体关系抽取; 全信息; 最大熵; 条件随机场;
D O I
暂无
年度学位
2007
学位类型
博士
导师
摘要
随着Internet技术的不断发展和网上电子文本的日益增多,使得用户从网上获取有效信息变得日趋困难。面对信息爆炸带来的问题,亟需一些智能化工具来帮助人们从海量信息中获取真正需要的信息,信息抽取正是基于这一需求而产生的。信息抽取目前已经成为人们研究的热点,根据ACE(Automatic Content Extraction)会议评测任务的划分,它主要研究命名实体识别、实体关系抽取、指代消解、事件探测这四个领域。其中,实体识别和关系抽取又是这些任务中最重要的部分。本文对信息抽取技术的研究主要集中在命名实体识别和实体关系抽取两个方面,将先进的机器学习算法和全新的理论方法—全信息理论运用到我们的整个研究过程中。本文的贡献主要有以下几个方面: 1、提出了一种专家知识和多模型相结合的命名实体识别方法,充分考虑了专家知识在命名实体识别中的作用。根据实体类型的不同,分别采用不同的实现方法,人名、地名识别采用先规则后统计的方法,而组织机构名识别则采用先统计后规则的方法。统计学习方法应用了最大熵(Maximum Entropy,ME)和条件随机场(Conditional Random Fields,CRFs)算法。命名实体识别的主要贡献详细描述如下: 首先,命名实体识别系统利用专家知识和规则进行人名、地名的候选,然后再将候选的实体输入统计模型进行判断,其中,在处理候选人名时,为了防止一个外国译名被部分识别为一个或几个中国人名,提出了动态优先级方法,该方法首先建立高频的歧义字,这些字既可用作中国人名的姓氏,又可经常出现在外国译名中,实体识别系统在处理候选人名时一旦遇到这些高频歧义字,利用前后向探测方法灵活地调用中外人名识别模型,实验证明,该方法极大地提高了人名识别的性能指标。地名的候选也充分利用了“省、市、山、湖、自治县”等明显的后缀信息以及“奔赴、赴、故都”等前缀信息,作为触发地名识别模块工作的条件。模型中的特征包括了各个层面:实体的上下文环境、上下文的特定语义、实体中不同字或词对实体识别的贡献度等。本文使用了概率信息,增强了样本的差异性,提高了人名、地名识别的召回率和准确率。除此之外,还首次提出自信度函数、顺序等特征,这些特征在实体识别中发挥了巨大作用。 其次,细化分类模型。为了提高实体识别的性能指标,采用层叠方式的多模型结构,模型分为中国人名、外国译名、地名和组织机构名等识别模型,针对不同的模型抽取了不同的特征。 第三,由于组织机构名长度不一,很难直接用规则的方法进行机构名候选,因此,本文采用先统计后规则的方法,并借鉴了短语识别技术,与常用的短语BIO识别方法相比,本文定义了BILO四类标记,增加一类标记L。采用BILO方法,将机构名识别转化为相应的标记分类任务,使机构名识别任务简单化。并且,本文还针对不同的机器学习方法开发了相应特征。最后,利用规则——特殊模板来识别利用统计方法没有识别出的机构名。 利用该命名实体识别系统参加了2006年SIGHAN中的命名实体比赛,实验语料来自微软亚洲研究院,获取了最好成绩。本文还利用1998年1月的《人民日报》进行实验,对比了ME、CRFs用于汉语命名实体识别的实验结果,通过对结果的分析和比较,表明CRFs模型在性能上优于ME模型。 2、提出了基于CRFs的实体关系自动抽取方法,主要自动抽取句子中二元实体之间的关系,主要从以下两个方面完成: 首先,收集和标注语料。以“人事变动”领域为例,基于《人民日报》和互联网进行语料收集工作,将收集到的语料进行切分、POS等预处理后,再改写为XML树。在此基础上,我们标注了三类实体关系:职位、人、公司三者之间的关系,以及一定数量的反例,从而为后续研究打下基础。 其次,在完成语料的收集、整理和标注工作后,建立了实验系统模型,利用CRFs算法进行实体关系的自动抽取实验。针对不同的实体关系选取不同特征,实验结果证明,CRFs和其它算法相比,可以有效地解决二元实体关系的自动抽取问题。 3、为了正确获取文本中隐含的实体关系并推送给用户一个更完整的结果,以全信息理论为方法论,在该方法论的指引下,充分利用语法、语义、语用等方面的知识,挖掘、获取多个实体之间的关系。具体表现为以下两点: 首先利用机器学习方法获取分析实体关系时必不可少的语法知识,该语法知识由若干抽取模板组成。为了克服获取大规模标注语料这一困难,提出利用无监督的学习方法——Bootstrapping方法获取抽取模板,并提出了层次知识获取模型,该模型由内外两层知识获取模块组成,内外两层模块互相嵌套获取了实体关系抽取所需的领域专业特征词表和抽取模板库,从而完成语法知识的获取任务。 其次,建立全信息知识库。采用语义框架的表示方法,结合“模式—行为”规则,对抽取模板进行语义分析和施效结果分析,挖掘出隐含的实体关系,同时修正已得到的错误实体关系,通过对最终实体关系的推理和整合,给用户推送一个完整的结果。实验结果表明,基于全信息的实体关系获取方法能有效地解决多个实体关系的同时获取问题。
引用
收藏
页数:131
共 44 条
[21]
机器学习.[M].(美)TomM.Mitchell著;曾华军;张银奎等译;.机械工业出版社.2003,
[22]
自然语言处理技术基础.[M].王小捷;常宝宝编著;.北京邮电大学出版社.2002,
[23]
信息科学原理.[M].钟义信著;.北京邮电大学出版社.2002,
[24]
中文姓名的自动辨识 [J].
孙茂松 ;
黄昌宁 ;
高海燕 ;
方捷 .
中文信息学报, 1995, (02)
[25]
基于《知网》的中文信息结构抽取研究 [J].
尤昉 ;
李涓子 ;
王作英 ;
不详 .
计算机工程与应用 , 2002, (18) :56-58
[26]
基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[27]
基于多层模式的多记录网页信息抽取方法 [J].
朱明 ;
王军 ;
王俊普 .
计算机工程, 2001, (09) :40-42
[28]
基于结点语义关系的信息抽取技术 [J].
胡睿 ;
张冬茉 ;
杜蓬 .
计算机工程, 2001, (04) :26-28
[29]
基于分解与动态规划策略的汉语未登录词识别 [J].
吕雅娟 ;
赵铁军 ;
杨沐昀 ;
于浩 ;
李生 .
中文信息学报, 2001, (01) :28-33
[30]
基于语料库的中文姓名识别方法研究 [J].
郑家恒 ;
李鑫 ;
谭红叶 .
中文信息学报, 2000, (01) :7-12