基于网络抱团发现的命名实体关系抽取

被引:0
作者
李晶
机构
[1] 华中师范大学
关键词
信息抽取; 网络化数据挖掘; 命名实体对; 语义关系; 聚类; 介数;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
关系抽取是是信息抽取研究领域的一个重要课题。关系抽取的目的是从文本中发现两命名实体间的关系。近年来,该技术得到越来越多的关注,被运用到各个领域中,如:信息抽取,本体构造,问答系统,生物技术等。 自从1995年,第六届信息理解会议(the Sixth Message Understanding Conference MUC-6)提出关系抽取这个概念以来,在命名实体关系抽取方面已经开展了大量的研究工作,但绝大部分研究都是基于有导学习的。有导学习方法最大的问题在于需要花大量的时间去标注足够数量的训练语料,此外系统很难从一个领域移植到另外一个领域中。为了突破有导学习方法中的限制,无导方法被提出来。但是,目前无导方法仍然存在一些问题:(1)命名实体对一般是通过一定范围内的上下文来进行描述地,但是如何设置上下文窗口大小,一直以来都没有一个客观的标准;(2)在命名实体对的聚类过程中,往往存在着很大的噪音,如何能在噪音存在的情况下保证较好的聚类效果:(3)命名实体对之间的语义关系是具有层次结构的,如何描述这种层次结构的关系。 针对以上问题,本文尝试性地提出了一种基于网络化数据挖掘的命名实体对关系抽取的方法。在该方法中,我们采用了如下三种关键技术:1、利用网络化结构来表示命名实体对;2、基于抱团现象的命名实体对聚类;3、基于语义层次的命名实体关系描述。特别值得一提的是在关键技术1中我们着重解决了实体对上下文窗口大小的设置的问题,在关键技术2中我们创新性的提出了一个如何在带权网络中发现抱团现象的方案。 为了验证提出的命名实体对关系抽取方法的可行性和有效性,我们以半年人民日报为语料进行实验。结果表明,本文提供的方法不但可以以较高的准确率发现命名实体间的语义关系,而且能够恰当地标注命名实体间的语义关系。
引用
收藏
页数:48
共 5 条
[1]
Detecting community structure in networks [J].
Newman, MEJ .
EUROPEAN PHYSICAL JOURNAL B, 2004, 38 (02) :321-330
[2]
Large-scale information retrieval with latent semantic indexing.[J].Todd A. Letsche;Michael W. Berry.Information Sciences.1997, 1
[3]
基于潜在语义索引的Web信息预测采集过滤方法 [J].
李振星 ;
陆大珏 ;
任继成 ;
唐卫清 ;
唐荣锡 .
计算机辅助设计与图形学学报, 2004, (01) :142-147
[4]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[5]
基于向量空间模型中义项词语的无导词义消歧 [J].
鲁松 ;
白硕 ;
黄雄 .
软件学报, 2002, (06) :1082-1089