基于依存树的中文命名实体语义关系抽取的研究

被引:0
作者
王苑
机构
[1] 中南大学
关键词
关系抽取; 语法特征; 启发式规则; 模式权重因子; 语义序列核;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
中文命名实体的语义关系抽取是关系抽取的一个重要研究方向。由于中文文本具有不同于英文文本的一些特有的语法特点,中文命名实体的语义关系抽取研究发展一直较为缓慢。中文文本多长句,长句中往往又包含着多个命名实体,该语法特点使得中文命名实体的语义关系抽取变的更加的困难。本文将着重在这方面进行研究。 首先,论文简单介绍了课题的研究背景、概述了有关语义关系抽取研究的历史和发展状况、并重点阐述了有关中文命名实体语义关系抽取的几种有代表性的方法。 接着,针对已有方法在处理复杂关系样例的实体关系抽取上的不足,本文提出了基于依存树的中文命名实体语义关系抽取的方法。该方法结合中文文本的语法特征,提出了七条启发式规则来提取实体间的关系特征,并采用加入模式权重因子的语义序列核函数和KNN机器学习算法联合构造分类器的方法来分类和标注关系的类型。 最后,根据上述研究,本文设计并实现了基于依存树的中文命名实体语义关系抽取(CERE-DT)系统,并在此系统的基础上,利用网上收集的测试集对该系统的抽取效果进行了测试,同时采用信息抽取领域的准确率、召回率和F-测试值对实验数据进行了统计分析。从和已有方法的对比实验结果来看,此方法具有良好的效果。
引用
收藏
页数:56
共 30 条
[1]
现代汉语补语研究 [D]. 
李锦姬 .
复旦大学,
2003
[2]
Detection of Gene Interactions Based on Syntactic Relations.[J].Mi-Young Kim;Daniel Howard.Journal of Biomedicine and Biotechnology.2008,
[3]
Learning information extraction rules for semi-structured and free text [J].
Soderland, S .
MACHINE LEARNING, 1999, 34 (1-3) :233-272
[4]
基于图的半监督关系抽取 [J].
陈锦秀 ;
姬东鸿 .
软件学报, 2008, (11) :2843-2852
[5]
基于改进编辑距离和依存文法的汉语句子相似度计算 [J].
刘宝艳 ;
林鸿飞 ;
赵晶 .
计算机应用与软件, 2008, (07) :33-34+47
[6]
基于正反例训练的SVM命名实体关系抽取 [J].
刘路 ;
李弼程 ;
张先飞 .
计算机应用, 2008, (06) :1444-1446+1497
[7]
基于互信息最大化的特征选择算法及应用 [J].
唐亮 ;
段建国 ;
许洪波 ;
梁玲 .
计算机工程与应用, 2008, (13) :130-133
[8]
BOOTSTRAPPING FOR EXTRACTING RELATIONS FROM LARGE CORPORA [J].
Li Weigang Liu Ting Li Sheng Information Retrieval Laboratory School of Computer Science and Technology Harbin Institute of Technology Harbin China .
Journal of Electronics(China), 2008, (01) :89-96
[9]
基于网络挖掘的实体关系元组自动获取 [J].
李维刚 ;
刘挺 ;
李生 .
电子学报, 2007, (11) :2111-2116
[10]
基于核函数中文关系自动抽取系统的实现 [J].
刘克彬 ;
李芳 ;
刘磊 ;
韩颖 .
计算机研究与发展, 2007, (08) :1406-1411