实体语义关系抽取是信息抽取中的重要部分,其目的是从文本中找出实体对之间的语义关系并对它们进行分类。现阶段在英文语料上的实体关系抽取研究已经开展的比较全面和深入,取得的F值达到75%以上,不过离实用化还有一段距离。与英文关系抽取研究相比,中文的研究起步相对较晚,现阶段的研究方法大多是把英文中的基于特征向量的方法移植到中文环境里面,取得的性能也比英文低。另一方面,基于核函数的方法由于能捕获关系实例的结构化信息,在英文关系抽取中取得了较好的性能,而在中文关系抽取中还需要深入的研究。
本文研究了基于树核函数方法的中文实体语义关系抽取,研究内容主要包括:
1.构建一个中文实体关系抽取原型系统,比较中英文语料资源的实体类型以及关系类型的不同点,解决中文语料的预处理工作中所遇到的问题。
2.提出基于卷积树核函数的中文语义关系抽取方法,改进关系实例结构化信息的表达形式,比较和分析中英文语义关系抽取中各类实体关系之间的差异。
3.研究实体语义信息在中文语义关系抽取中的作用,并将实体语义信息和句法结构化信息结合成中文实体语义关系树,它能有效捕获关系实例的结构化信息和实体的语义信息。
实验结果表明,同英文语义关系抽取一样,基于树核函数的方法在中文语义关系抽取中也能取得合理的性能,并且实体语义信息的加入又明显提高了关系抽取的性能,最终的F值达到了64.2,为下一步的研究工作奠定了良好的基础。