中文命名实体的语义关系抽取是关系抽取的一个重要研究方向。由于中文文本具有不同于英文文本的一些特有的语法特点,中文命名实体的语义关系抽取研究发展一直较为缓慢。中文文本多长句,长句中往往又包含着多个命名实体,该语法特点使得中文命名实体的语义关系抽取变的更加的困难。本文将着重在这方面进行研究。
首先,论文简单介绍了课题的研究背景、概述了有关语义关系抽取研究的历史和发展状况、并重点阐述了有关中文命名实体语义关系抽取的几种有代表性的方法。
接着,针对已有方法在处理复杂关系样例的实体关系抽取上的不足,本文提出了基于依存树的中文命名实体语义关系抽取的方法。该方法结合中文文本的语法特征,提出了七条启发式规则来提取实体间的关系特征,并采用加入模式权重因子的语义序列核函数和KNN机器学习算法联合构造分类器的方法来分类和标注关系的类型。
最后,根据上述研究,本文设计并实现了基于依存树的中文命名实体语义关系抽取(CERE-DT)系统,并在此系统的基础上,利用网上收集的测试集对该系统的抽取效果进行了测试,同时采用信息抽取领域的准确率、召回率和F-测试值对实验数据进行了统计分析。从和已有方法的对比实验结果来看,此方法具有良好的效果。