实体和属性对齐方法的研究与实现

被引:0
作者
杨秀璋
机构
[1] 北京理工大学
关键词
实体对齐; 属性对齐; 多视图融合; 词向量; 知识图谱;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
近年来,随着互联网技术的不断发展,网络信息呈爆炸式增长。人们在通过互联网快速、自由地获取信息的同时,也面临着如何从海量数据中快速精确地获取用户所需信息的难题。知识图谱通过构建知识来理解用户的查询意图,并发现令用户满意的搜索结果。实体对齐和属性对齐是知识图谱构建、Web挖掘和智能信息处理等领域的重要研究问题,该技术可应用于信息检索、问答系统、自动摘要等领域。本文主要研究面向在线百科的实体对齐和属性对齐方法。实体对齐任务是指将不同数据源但是含义相同的多个实体进行对齐。属性对齐任务是指将表示同一概念的属性进行合并。针对实体对齐问题,本文提出了一种基于多视图融合的实体对齐方法。该方法的基本思想是同时利用两个视图的模型进行实体对齐,融合了自由文本视图和消息盒视图。它的优势是从多个角度解决实体对齐问题,考虑了多种视图的共同性和互补性。针对属性对齐问题,本文提出了一种基于词向量的属性对齐方法。该方法的基本思想是通过Word2vec及词向量技术去挖掘网页文本中的潜在语义信息,并融合对齐实体的相似属性。它的优势是有效地利用了深层语义信息和短文本知识,从而提升属性对齐的效果。本文实验数据选用百度百科、互动百科和维基百科三大在线百科的旅游景区、保护动物、人物明星和世界国家四个主题的中文网页语料。评估指标采用的是准确率、召回率和F值。实验结果表明,基于多视图融合的聚类实体对齐方法优于单个视图的实体对齐方法,基于多视图融合的BIRCH层次聚类实体对齐方法优于基于多视图融合的LDA主题模型实体对齐方法和基于多视图融合的K-means聚类实体对齐方法;基于词向量的属性对齐方法优于基于相似距离的属性对齐方法。因此,实验结果表明了本文提出的实体对齐方法和属性对齐方法的有效性,该方法和所构建的实体和属性对齐知识可以广泛应用于构建知识图谱、知识库和知识计算引擎中。
引用
收藏
页数:80
共 20 条
[1]
多视图的半监督学习研究 [D]. 
王娇 .
北京交通大学,
2010
[2]
基于LDA和Word2Vec的推荐算法研究 [D]. 
董文 .
北京邮电大学,
2015
[3]
基于维基百科的渔业知识库构建研究 [D]. 
王兰 .
上海海洋大学,
2014
[4]
基于BIRCH改进算法的文本聚类研究 [D]. 
仰孝富 .
北京林业大学,
2013
[5]
这就是搜索引擎.[M].张俊林; 著.电子工业出版社.2012,
[6]
同义词词林.[M].梅家驹;竺一鸣;高蕴琦;殷鸿翔 编.上海辞书出版社.1983,
[7]
Optimizing ontology alignments through a Memetic Algorithm using both MatchFmeasure and Unanimous Improvement Ratio.[J].Xingsi Xue;Yuping Wang.Artificial Intelligence.2015,
[8]
Automating the approximate record-matching process.[J].Vassilios S Verykios;Ahmed K Elmagarmid;Elias N Houstis.Information Sciences.2000, 1
[9]
短文本理解研究 [J].
王仲远 ;
程健鹏 ;
王海勋 ;
文继荣 .
计算机研究与发展, 2016, (02) :262-269
[10]
大数据融合研究:问题与挑战 [J].
孟小峰 ;
杜治娟 .
计算机研究与发展, 2016, 53 (02) :231-246