实体关系自动抽取技术的比较研究

被引:0
作者
宁海燕
机构
[1] 哈尔滨工业大学
关键词
实体关系抽取; 领域术语抽取; Bootstrapping; 聚类; DCM合并;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着计算机技术和网络技术的不断发展,海量信息以电子文档的形式出现在人们面前。从这些自然文本中提取出有用的信息,日益成为人们关注的问题。因此信息抽取技术应运而生,关系抽取是其中的一个子任务。 文本中特定的事实信息称为实体,而确定这些实体之间的关系称为实体关系抽取。实体关系抽取对本体库的构建以及改进信息检索技术等有重要的作用。本文重点对实体关系抽取技术的几个问题进行了研究和解决: 首先,本文抽取了传统命名实体以外的存在重要语义关系的词:领域术语。针对领域术语评测数据的不统一和评价的困难性,通过词典评测、人工评测在准确率、召回率、F度量等评价指标上与几种主流的基于统计的术语抽取方法进行了详细的对比和分析。本文还提出了基于线性支持向量机权重的术语抽取方法,实验结果表明,该方法能有效地抽取领域术语。 其次,本文基于不同的应用需求,利用统一的语料对比研究了基于特征的有监督、半监督和无监督的实体关系抽取方法。 在有监督实体关系抽取方法中,前人的研究工作没有考虑各种特征对两个实体间无关系即no-relation的影响。对此,本文详细对比了通用特征:实体周围词语、实体类型、子类型、实体位置、实体中心词和内容的依存句法分析对真正关系和no-relation的影响,并提出了新特征:特征词位置信息,实验表明该特征能有效提高实体关系抽取的准确率。 本文通过Bootstrapping半监督实体关系抽取方法进行了不同的对比实验:实体特征、种子集规模对实体关系抽取性能的影响;同等条件下,半监督实体关系抽取方法与有监督实体关系抽取方法的性能比较。实验结果表明半监督实体关系抽取能够提高实体关系抽取的准确率。 无监督实体关系抽取方法主要采用的是聚类方法,因此本文主要研究了聚类算法以及合并策略对实体关系抽取的影响。本文对比研究了三种聚类算法,即K-means、自组织映射和Affinity Propagation算法,以及两种合并策略(DCM和Cosine)。Affinity Propagation算法能够取得较优的结果,自组织映射算法在运行时间上更有优势。
引用
收藏
页数:64
共 16 条
[1]
术语定义抽取、聚类与术语识别研究 [D]. 
张榕 .
北京语言大学,
2006
[2]
采用CRF技术的军事情报术语自动抽取研究 [J].
贾美英 ;
杨炳儒 ;
郑德权 ;
杨靖 .
计算机工程与应用, 2009, 45 (32) :126-129
[3]
基于核函数中文关系自动抽取系统的实现 [J].
刘克彬 ;
李芳 ;
刘磊 ;
韩颖 .
计算机研究与发展, 2007, (08) :1406-1411
[4]
领域术语自动抽取及其在文本分类中的应用 [J].
刘桃 ;
刘秉权 ;
徐志明 ;
王晓龙 .
电子学报, 2007, (02) :328-332
[5]
基于文本分类中特征提取的领域词语聚类 [J].
刘华 .
语言文字应用, 2007, (01) :139-144
[6]
基于种子自扩展的命名实体关系抽取方法 [J].
何婷婷 ;
徐超 ;
李晶 ;
赵君喆 .
计算机工程, 2006, (21) :183-184+193
[7]
基于互信息的中文术语抽取系统 [J].
张锋 ;
许云 ;
侯艳 ;
樊孝忠 .
计算机应用研究, 2005, (05) :72-73+77
[8]
一种自举的二元关系和二元关系模式获取方法 [J].
姜吉发 ;
王树西 .
中文信息学报, 2005, (02) :71-77
[9]
信息技术领域术语提取的初步研究 [J].
王强军 ;
李芸 ;
张普 .
术语标准化与信息技术, 2003, (01) :32-33+37
[10]
自动问答综述 [J].
郑实福 ;
刘挺 ;
秦兵 ;
李生 .
中文信息学报, 2002, (06) :46-52