旅游领域知识图谱构建方法的研究和实现

被引:0
作者
徐溥
机构
[1] 北京理工大学
关键词
知识图谱; 旅游; 属性值融合; 属性知识扩充; 学习排序;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
随着计算机和互联网技术的飞速发展和广泛普及,互联网已经成为人类获取知识的最大平台之一。如何从海量的互联网数据中挖掘有价值的信息并加以利用,是目前信息检索和数据挖掘领域的重要研究问题。2012年,谷歌公司提出知识图谱的概念,使传统的互联网文本搜索形式转化为实体、属性、属性值和关系的图搜索形式。构建知识图谱的研究对于互联网信息管理和知识获取具有重要应用价值。本文研究旅游领域知识图谱的构建方法,具体包括属性知识扩充方法和属性值融合方法,并设计和实现了一个基于多数据源的旅游领域中文知识图谱系统。属性知识扩充的任务是对知识图谱中的实体进行属性和属性值的扩充。属性值融合的任务是将不同数据源中抽取的属性值信息进行融合,提取有效的属性值。对于属性知识扩充任务,本文提出和实现了一种基于词汇场的属性知识扩充方法,改进了基于监督学习的属性知识扩充方法,提出和实现了一种混合式属性知识扩充技术。在基于词汇场的属性知识扩充方法中,本文对抽取到的属性和属性值关键词赋予权重,并利用关键词和搜索引擎进行属性知识扩充,增加了知识获取的广度。在基于监督学习的属性知识扩充方法中,本文集成了多个监督学习分类器的结果,提高了分类结果的正确率。混合式属性知识扩充技术的优势在于混合了多种属性知识扩充技术,获得了数量更多和质量更好的<实体,属性,属性值>三元组。对于属性值融合任务,本文提出和实现了一种基于学习排序的知识图谱属性值融合方法。该方法的特点是将属性值准确性排序任务转化为搜索引擎文档排序任务,通过监督学习筛选出最有效的属性值。本文语料来自在线百科和百度搜索引擎。对于属性知识扩充任务,本文的实验评估指标采用准确率,召回率,F值和正确率。对于属性值融合任务,本文的实验评估指标采用MAP值和NDCG值。本文的实验结果表明了属性知识扩充方法和属性值融合方法的有效性,混合式属性知识扩充方法比单独属性知识扩充方法提高了知识获取的广度,并且拥有较好的正确率。最后,本文将获取的三元组知识构建为旅游领域中文知识图谱,该中文知识图谱可应用于问答系统、信息检索等领域,有助于解决语义网的互操作问题。
引用
收藏
页数:81
共 18 条
[1]
基于开放网络知识的信息检索与数据挖掘 [J].
王元卓 ;
贾岩涛 ;
刘大伟 ;
靳小龙 ;
程学旗 .
计算机研究与发展, 2015, (02) :456-474
[2]
微博知识图谱构建方法研究 [J].
杜亚军 ;
吴越 .
西华大学学报(自然科学版), 2015, 34 (01) :27-35+89
[3]
刍议搜索引擎中知识图谱技术 [J].
赵鑫 .
辽宁行政学院学报, 2014, (10) :150-151
[4]
面向中文网络百科的属性和属性值抽取 [J].
贾真 ;
杨宇飞 ;
何大可 ;
刘胜久 ;
尹红风 .
北京大学学报(自然科学版), 2014, 50 (01) :41-47
[5]
基于本体的Web信息抽取研究综述 [J].
金燕 .
图书馆学研究, 2012, (16) :2-6
[6]
Knowledge extraction from Chinese wiki encyclopedias.[J].Jeff Z.PAN;.Journal of Zhejiang University-Science C(Computers & Electronics).2012, 04
[7]
基于多种数据源的中文知识图谱构建方法研究 [D]. 
胡芳槐 .
华东理工大学,
2015
[8]
Acquisition of instance attributes via labeled and related instances..Enrique Alfonseca;Marius Pasca;Enrique Robledo-Arnuncio;.SIGIR.2010,
[9]
Opinion-Based Entity Ranking using learning to rank.[J].Shariq Bashir;Wasif Afzal;Abdul Rauf Baig.Applied Soft Computing.2016,
[10]
开放式中文实体关系抽取研究 [D]. 
刘安安 .
哈尔滨工业大学,
2013