无监督的中文实体关系抽取研究

被引:0
作者
王晶
机构
[1] 华东师范大学
关键词
关系抽取; 特征获取; 语法特征; 启发式规则; 聚类算法;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
随着信息技术的发展,尤其是互联网的发展,大量的信息以电子文本形式出现在人们面前。面对信息爆炸带来的挑战,人们迫切需要一些能从海量数据中迅速获得有用信息的自动化的工具,信息抽取技术正是在这种背景下产生了。与此同时,实体关系抽取作为信息抽取的重要组成部分也受到了越来越多的关注。 目前,相关研究工作者对实体关系抽取的研究方向主要集中在有监督和弱监督的机器学习方法上,并且已经在相关领域取得了初步成果。但有监督和弱监督方法的最大不足是无法自动识别出未预先定义好的关系,所以研究者们开始对无监督的关系抽取方法进行研究。总的来说对无监督关系抽取方法的研究还存在一些不足之处,如特征获取不准确、聚类结果不合理、关系抽取结果准确率较低,针对中文语料进行研究较少等。 本文对无监督的中文实体关系抽取方法进行了改进,具体表现在以下两个方面:一方面,提出了一种基于启发式规则的特征获取算法,该算法结合中文语法特征,提出了五条启发式规则进行实体之间关系特征获取,通过对五条规则的应用,可以获得更加有效的实体对的上下文特征:另一方面,在对实体对进行聚类时,根据聚类算法本身的优缺点及数据集的特征提出了一种新的聚类算法,该算在k-means聚类算法的基础上,引入了联合聚类思想,这样不仅利用了k-means算法自身简单、快速的优点,而且充分利用了实体对与关系特征描述之间的二元性特征,最终获得了更加合理聚类结果。 最后,本文设计并实现了改进的无监督中文关系抽取方法的原型系统。为了验证文中提出的两个改进算法对无监督关系抽取性能的影响,作者利用从网上收集的数据集对系统的实际效果进行了实验,同时,从与传统的特征获取算法和k-means聚类算法应用在无监督关系抽取方法中的对比实验结果来看,将本文提出的两个改进算法同时应用在系统中时,会获得更高的准确率。
引用
收藏
页数:70
共 22 条
[1]
新的K-均值算法最佳聚类数确定方法 [J].
周世兵 ;
徐振源 ;
唐旭清 .
计算机工程与应用 , 2010, (16) :27-31
[2]
基于特征组合的中文实体关系抽取 [J].
黄鑫 ;
朱巧明 ;
钱龙华 ;
刘梅梅 .
微电子学与计算机, 2010, 27 (04) :198-200+204
[3]
实体关系抽取的技术方法综述 [J].
徐健 ;
张智雄 ;
吴振新 .
现代图书情报技术, 2008, (08) :18-23
[4]
聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[5]
基于上下文关系的文本分类特征描述方法 [J].
何中市 ;
刘里 .
计算机科学, 2007, (05) :183-186
[6]
基于种子自扩展的命名实体关系抽取方法 [J].
何婷婷 ;
徐超 ;
李晶 ;
赵君喆 .
计算机工程, 2006, (21) :183-184+193
[7]
信息论联合聚类算法及其在视频镜头聚类中的应用 [J].
王鹏 ;
杨士强 ;
刘志强 .
计算机学报, 2005, (10) :1692-1699
[8]
实体关系自动抽取 [J].
车万翔 ;
刘挺 ;
李生 .
中文信息学报, 2005, (02) :1-6
[9]
自然语言句法分析研究现状和发展趋势 [J].
李向宏 ;
王丁 ;
黄成哲 ;
雷国华 .
微处理机, 2003, (02) :4-7+12
[10]
建立现代汉语依存关系的层次体系 [J].
刘伟权 ;
王明会 ;
钟义信 .
中文信息学报, 1996, (02)