随着信息技术的发展,尤其是互联网的发展,大量的信息以电子文本形式出现在人们面前。面对信息爆炸带来的挑战,人们迫切需要一些能从海量数据中迅速获得有用信息的自动化的工具,信息抽取技术正是在这种背景下产生了。与此同时,实体关系抽取作为信息抽取的重要组成部分也受到了越来越多的关注。
目前,相关研究工作者对实体关系抽取的研究方向主要集中在有监督和弱监督的机器学习方法上,并且已经在相关领域取得了初步成果。但有监督和弱监督方法的最大不足是无法自动识别出未预先定义好的关系,所以研究者们开始对无监督的关系抽取方法进行研究。总的来说对无监督关系抽取方法的研究还存在一些不足之处,如特征获取不准确、聚类结果不合理、关系抽取结果准确率较低,针对中文语料进行研究较少等。
本文对无监督的中文实体关系抽取方法进行了改进,具体表现在以下两个方面:一方面,提出了一种基于启发式规则的特征获取算法,该算法结合中文语法特征,提出了五条启发式规则进行实体之间关系特征获取,通过对五条规则的应用,可以获得更加有效的实体对的上下文特征:另一方面,在对实体对进行聚类时,根据聚类算法本身的优缺点及数据集的特征提出了一种新的聚类算法,该算在k-means聚类算法的基础上,引入了联合聚类思想,这样不仅利用了k-means算法自身简单、快速的优点,而且充分利用了实体对与关系特征描述之间的二元性特征,最终获得了更加合理聚类结果。
最后,本文设计并实现了改进的无监督中文关系抽取方法的原型系统。为了验证文中提出的两个改进算法对无监督关系抽取性能的影响,作者利用从网上收集的数据集对系统的实际效果进行了实验,同时,从与传统的特征获取算法和k-means聚类算法应用在无监督关系抽取方法中的对比实验结果来看,将本文提出的两个改进算法同时应用在系统中时,会获得更高的准确率。