基于种子自扩展的命名实体关系抽取方法的研究

被引:0
作者
徐超
机构
[1] 华中师范大学
关键词
信息抽取; 命名实体之间关系抽取; 自动训练方法; 种子自扩展; 自然语言理解;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
信息抽取对语言信息的自动化处理有着重要的意义,而命名实体之间关系是信息抽取中的一个重要研究课题。它与信息检索、问答系统、信息过滤有直接的关联,同时,作为一项基础性研究,它对于自动文摘、机器翻译、内容理解、语境生成、文本分类以及数字图书馆建设都有重要的研究意义。 对于命名实体之间关系的抽取,主要有知识工程和自动训练两种主要的方法。知识工程的方法有相对较好的效果。但是它也有明显的不足,知识工程的方法的开发非常昂贵,且适应性不强。越来越多的学者都开始致力于自动训练方法的研究。 本文在目前命名实体之间关系抽取的研究现状下,对命名实体之间关系抽取进行了比较深入的探讨。本文的主要工作是利用统计学的方法,利用自动训练的方法自动获取知识进行命名实体之间关系的抽取。研究工作主要包括以下两个方面: (1)提出了一种基于种子自扩展的命名实体之间关系抽取的方法,运用这种方法可以对大规模文本集合中的命名实体之间关系进行抽取; (2)基于向量空间模型,并采用潜在语义分析和特征提取等技术,完成了对关系抽取时信息的获取。 通过以上两种方法,使命名实体之间关系抽取结果的性能大大提高。 本文提出的方法在开放语料的测试中,取得了平均72.9%的召回率和平均69.3%的准确率,从而验证了方法的有效性。
引用
收藏
页数:49
共 14 条
[1]
统计自然语言处理基础.[M].(美)ChristopherD.Manning;(德)HinrichSchutze著;苑春法等译;.电子工业出版社.2005,
[2]
机器学习.[M].(美)TomM.Mitchell著;曾华军;张银奎等译;.机械工业出版社.2003,
[3]
语料库语言学.[M].黄昌宁;李涓子著;.商务印书馆.2002,
[4]
潜在语义分析理论及其应用 [J].
盖杰 ;
王怡 ;
武港山 .
计算机应用研究, 2004, (03) :9-12+20
[5]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[6]
信息抽取模式自动生成方法的研究 [J].
郑家恒 ;
王兴义 ;
李飞 .
中文信息学报, 2004, (01) :48-54
[7]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[8]
信息提取技术概述(下) [J].
孙斌 .
术语标准化与信息技术, 2003, (01) :34-37
[9]
文本分类中的特征抽取 [J].
秦进 ;
陈笑蓉 ;
汪维家 ;
陆汝占 .
计算机应用, 2003, (02) :45-46
[10]
基于Web资源的信息抽取技术 [J].
郭志红 .
情报科学, 2002, (12) :1282-1284