基于百度百科的知识图谱构建方法研究

被引:0
作者
杨文
机构
[1] 华中师范大学
关键词
百度百科; 知识图谱; 网络爬虫; 知识抽取; 可视化;
D O I
暂无
年度学位
2019
学位类型
硕士
导师
摘要
随着网络的不断发展,互联网数据内容呈现出爆炸式增长的趋势。由于互联网内容具有大规模、多元化、组织结构松散等特点,如何有效获取信息和知识面临了巨大的挑战。知识图谱(Knowledge Graph)凭借其强大的语义处理和开放组织能力,为互联网时代的知识和智能应用奠定了基础。在现在社会、科学都在飞速发展的大环境下,知识图谱已经渐渐成为一种新颖的管理海量知识的方式。知识图谱图型的数据结构,由实体,关系,属性等组成,基本单元是三元组,其中,实体就是对应图谱中的点,关系对应边,能够很好地把关系展示出来,简单的说,知识图谱可以把不同实体通过其相同的属性或者其他特征用图的方式展现出来,得到一个关系网。知识图谱也开创了一条全新的、从“关系”的角度分析问题的途径。本文旨在构建一个基于百度百科的知识图谱,由于百度百科的网页数据复杂多样,如何从海量网页中获取到有用的知识成为一大挑战。此外,之所以选择百度百科这一数据源是因为它有三大特点:1.获取容易,每一个网页只围绕一个实体进行介绍,信息详细又全面;2.知识抽取比较简单,因为百度百科每个实体的网页格式较为统一,而且包括很多半结构化信息表,方便后续的知识抽取;3.百度百科的网页内容有专业人士编写,质量相对较高。本文主要开展的工作如下:1.从百度百科网页中获取原始数据,本文采用网络爬虫的方式对百度百科这一半结构化数据源进行爬取,得到实体名称也就是词条名以及对应的html文件,其中要注意的是:百度百科中实体与文章通常是一一对应的,而实体一般对应着文章的标题。由于百度百科的内容过于丰富,所以本文最终只抽取部分三元组进行知识图谱的构建研究。2.进一步对爬虫得到的数据进行处理,首先析取正文,然后从中得到结构化信息,并抽取出三元组,为下文构建的实现打下坚实基础。3.然后通过Neo4j图形数据库对知识图谱进行存储、构建。4.最终对数据进行网页可视化,将后端数据库的查询结果转换后传递给D3在前端画图,实现数据在网页上的查询。
引用
收藏
页数:49
共 40 条
[21]
关于邮政企业建设线上业务咨询平台的策略 [J].
田卫辉 ;
李翔 ;
李斌 .
企业导报, 2016, (16) :109+111
[22]
知识图谱技术综述 [J].
徐增林 ;
盛泳潘 ;
贺丽荣 ;
王雅芳 .
电子科技大学学报 , 2016, (04) :589-606
[23]
植物领域知识图谱构建中本体非分类关系提取方法 [J].
赵明 ;
杜亚茹 ;
杜会芳 ;
张家军 ;
王红说 ;
陈瑛 .
农业机械学报, 2016, 47 (09) :278-284
[24]
知识图谱构建技术综述 [J].
刘峤 ;
李杨 ;
段宏 ;
刘瑶 ;
秦志光 .
计算机研究与发展, 2016, 53 (03) :582-600
[25]
知识表示学习研究进展 [J].
刘知远 ;
孙茂松 ;
林衍凯 ;
谢若冰 .
计算机研究与发展, 2016, 53 (02) :247-261
[26]
大数据时代高校档案资源体系建设的思考 [J].
周美兰 .
山西档案, 2015, (01) :68-71
[27]
金融科技在互联网金融行业性风险防范领域的应用 [J].
胡鹏飞 .
大数据, 2018, 4 (01) :117-123
[28]
基于知识图谱的成人高等教育督导研究 [J].
王彦琦 ;
黄岩 ;
张旭东 .
哈尔滨学院学报, 2017, 38 (11) :134-139
[29]
基于知识图谱的战场目标关系融合技术 [J].
梅发国 ;
戴大伟 ;
张冀 .
指挥信息系统与技术, 2017, 8 (05) :81-86
[30]
医学知识图谱构建技术与研究进展 [J].
袁凯琦 ;
邓扬 ;
陈道源 ;
张冰 ;
雷凯 .
计算机应用研究, 2018, 35 (07) :1929-1936