未定义类型的关系抽取的半监督学习框架研究

被引:16
作者
程显毅 [1 ]
朱倩 [2 ]
机构
[1] 南通大学计算机科学与技术学院
[2] 江苏大学计算机科学与通信工程学院
关键词
关系抽取; 半监督学习; 维基百科; 实体-属性-值;
D O I
10.13232/j.cnki.jnju.2012.04.007
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
设计未定义类型关系抽取系统是目前研究的热点.但在没有特定领域的、机器可读的知识作为指导的情况下,面向自然语言文本的关系抽取很难取得令人满意的精确度和召回率,约束可以有效辅助语义关系的抽取.本文描述了一个提取"实体-属性-值"关系的半监督的机器学习框架,在半监督学习任务中,种子主要从维基百科的信息表格中获取,首先用线性分类器找出一些强反例,然后迭代的使用已有的反例数据重新训练分类器再应用到余下的未标注数据上找出更多反例.经过半监督学习得到了一个关系候选实例集,接下来讨论了关系类别验证问题,对于噪声模式,给出关系模式置信度评价指标,对于冲突模式提出了控制匹配顺序(高置信度模式优先匹配的原则)算法.经过这两个算法后,关系类别的描述仍具一定的多样性,提出凝聚型层次聚类算法,该算法将维基百科描述的结构特征表示为向量{DW,CW,IW,BW},进而给出两个关系模式相关度计算模式,完成关系类别聚类.最后,在WikipediaXML数据集进行了相关的实验,结果表明:根据维基百科的结构特征,动态的确定关系类别,减少了对预定义类型的依赖,提高了关系识别系统的可移植性.
引用
收藏
页码:466 / 474
页数:9
相关论文
共 2 条
[1]
基于自然语言处理技术的网络博客版权保护双水印算法 [J].
朱倩 ;
程显毅 ;
丁镠 ;
高飞 .
南京大学学报(自然科学), 2010, 46 (02) :140-148
[2]
小波域分形编码数字水印的研究(英文) [J].
李杨 ;
都思丹 .
南京大学学报(自然科学版), 2006, (04) :373-383