领域实体属性关系抽取方法研究

被引:0
作者
刘丽佳
机构
[1] 昆明理工大学
关键词
属性关系抽取; LM算法; PSO算法; DBN模型; 关系分类器;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
领域实体属性关系抽取是信息抽取、构建特定领域的本体知识库和知识图谱的重要基础。因此,研究领域实体属性关系的抽取方法,是一项非常有意义的工作。本文对特定领域的非结构化自由文本中的领域实体属性关系抽取做了以下几方面的工作:(1)本文提出了一种基于LM算法的领域概念实体属性关系抽取方法。该方法将关系识别问题看作分类问题,利用BP神经网络的非线性映射能力强、自主学习能力强、可以反馈训练的优点,以及LM算法的全局优化性和收敛速度快等优点,构造神经网络分类器,对经过预处理的旅游领域语料进行实体属性关系抽取。相对于传统的SVM加推理规则的方法,该方法提高了实体属性关系抽取的性能。(2)为了加快神经网络的收敛速度,提高关系识别与抽取性能,在(1)的基础上,本文提出了一种基于PSO的改进LM算法的关系抽取方法。该方法在利用BP神经网络构造分类模型,并采用LM算法构造分类器的基础上,利用粒子群优化算法(PSO)对神经网络的初始连接权值进行优化,从而加快网络收敛速度,提高关系抽取的准确率。利用旅游领域的语料集进行测试,实验表明,相对于LM算法和PSO算法,这两个算法相融合的改进算法具有更好的可行性和准确率,适合用于实体属性关系识别与抽取中。(3)由于深度学习方法可以自动学习文本组合特征,比人工选取的特征更利于分类,本文提出了基于深度信念网络(DBN)的实体属性关系抽取方法。该方法利用多层无监督的RBM网络自动学习组合特征,利用一层有监督的BP神经网络训练关系分类器,并对DBN的参数进行微调,实现实体属性关系的识别与抽取。与(1)、(2)中的方法相比,该方法更适合于具有高维空间特征的信息抽取任务,具有良好的关系抽取效果。实验结果表明,以上方法提高了旅游领域自由文本中的实体属性关系的识别与抽取性能,为下一步构建旅游领域的本体知识库奠定了良好的基础。
引用
收藏
页数:79
共 22 条
[1]
面向自由文本的细粒度关系抽取的关键技术研究 [D]. 
朱倩 .
江苏大学,
2011
[2]
基于LM算法的领域概念实体属性关系抽取 [J].
刘丽佳 ;
郭剑毅 ;
周兰江 ;
余正涛 ;
邵发 ;
张金鹏 .
中文信息学报, 2014, 28 (06) :216-222
[3]
基于Deep Learning的代词指代消解 [J].
奚雪峰 ;
周国栋 .
北京大学学报(自然科学版), 2014, 50 (01) :100-110
[4]
基于弱监督的属性关系抽取方法 [J].
杨宇飞 ;
戴齐 ;
贾真 ;
尹红风 .
计算机应用, 2014, 34 (01) :64-68
[5]
网页中商品“属性—值”关系的自动抽取方法研究 [J].
唐伟 ;
洪宇 ;
冯艳卉 ;
姚建民 ;
朱巧明 .
中文信息学报, 2013, (01) :21-29+38
[6]
基于Deep Belief Nets的中文名实体关系抽取 [J].
陈宇 ;
郑德权 ;
赵铁军 .
软件学报, 2012, 23 (10) :2572-2585
[7]
未定义类型的关系抽取的半监督学习框架研究 [J].
程显毅 ;
朱倩 .
南京大学学报(自然科学版), 2012, 48 (04) :466-474
[8]
基于并列结构的概念实例和属性的同步提取方法 [J].
李文杰 ;
穗志方 .
中文信息学报, 2012, (02) :82-87
[9]
基于Web弱指导的本体概念实例及属性的同步提取 [J].
康为 ;
穗志方 .
中文信息学报, 2010, 24 (01) :54-59
[10]
一种动态改变惯性权重的自适应粒子群算法 [J].
任子晖 ;
王坚 .
计算机科学, 2009, 36 (02) :227-229+256