基于维基百科和模式聚类的实体关系抽取方法

被引:75
作者
张苇如 [1 ,2 ]
孙乐 [1 ]
韩先培 [1 ]
机构
[1] 中国科学院软件研究所
[2] 中国科学院研究生院
基金
国家自然科学基金重大研究计划;
关键词
关系抽取; 维基百科; 模式聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对。首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显著性假设和关键词假设,在此基础上构建基于关键词的分类及层次聚类算法,显著提升了模式的可信度。实验结果表明该方法有效提升了句子实例及模式的质量,获得了良好的抽取性能。
引用
收藏
页码:75 / 81+127 +127
页数:8
相关论文
共 2 条
[1]
自动抽取维基百科文本中的语义关系 [D]. 
王刚 .
上海交通大学,
2008
[2]
Mining meaning from Wikipedia[J] Olena Medelyan;David Milne;Catherine Legg;Ian H. Witten International Journal of Human - Computer Studies 2009,