领域实体属性关系抽取是信息抽取、构建特定领域的本体知识库和知识图谱的重要基础。因此,研究领域实体属性关系的抽取方法,是一项非常有意义的工作。本文对特定领域的非结构化自由文本中的领域实体属性关系抽取做了以下几方面的工作:(1)本文提出了一种基于LM算法的领域概念实体属性关系抽取方法。该方法将关系识别问题看作分类问题,利用BP神经网络的非线性映射能力强、自主学习能力强、可以反馈训练的优点,以及LM算法的全局优化性和收敛速度快等优点,构造神经网络分类器,对经过预处理的旅游领域语料进行实体属性关系抽取。相对于传统的SVM加推理规则的方法,该方法提高了实体属性关系抽取的性能。(2)为了加快神经网络的收敛速度,提高关系识别与抽取性能,在(1)的基础上,本文提出了一种基于PSO的改进LM算法的关系抽取方法。该方法在利用BP神经网络构造分类模型,并采用LM算法构造分类器的基础上,利用粒子群优化算法(PSO)对神经网络的初始连接权值进行优化,从而加快网络收敛速度,提高关系抽取的准确率。利用旅游领域的语料集进行测试,实验表明,相对于LM算法和PSO算法,这两个算法相融合的改进算法具有更好的可行性和准确率,适合用于实体属性关系识别与抽取中。(3)由于深度学习方法可以自动学习文本组合特征,比人工选取的特征更利于分类,本文提出了基于深度信念网络(DBN)的实体属性关系抽取方法。该方法利用多层无监督的RBM网络自动学习组合特征,利用一层有监督的BP神经网络训练关系分类器,并对DBN的参数进行微调,实现实体属性关系的识别与抽取。与(1)、(2)中的方法相比,该方法更适合于具有高维空间特征的信息抽取任务,具有良好的关系抽取效果。实验结果表明,以上方法提高了旅游领域自由文本中的实体属性关系的识别与抽取性能,为下一步构建旅游领域的本体知识库奠定了良好的基础。