基于百度百科的知识图谱构建方法研究

被引：0

作者：

杨文

机构：

[1] 华中师范大学

关键词：

百度百科; 知识图谱; 网络爬虫; 知识抽取; 可视化;

D O I：

暂无

年度学位：

2019

学位类型：

硕士

导师：

杨海彤;

摘要：

随着网络的不断发展,互联网数据内容呈现出爆炸式增长的趋势。由于互联网内容具有大规模、多元化、组织结构松散等特点,如何有效获取信息和知识面临了巨大的挑战。知识图谱(Knowledge Graph)凭借其强大的语义处理和开放组织能力,为互联网时代的知识和智能应用奠定了基础。在现在社会、科学都在飞速发展的大环境下,知识图谱已经渐渐成为一种新颖的管理海量知识的方式。知识图谱图型的数据结构,由实体,关系,属性等组成,基本单元是三元组,其中,实体就是对应图谱中的点,关系对应边,能够很好地把关系展示出来,简单的说,知识图谱可以把不同实体通过其相同的属性或者其他特征用图的方式展现出来,得到一个关系网。知识图谱也开创了一条全新的、从“关系”的角度分析问题的途径。本文旨在构建一个基于百度百科的知识图谱,由于百度百科的网页数据复杂多样,如何从海量网页中获取到有用的知识成为一大挑战。此外,之所以选择百度百科这一数据源是因为它有三大特点:1.获取容易,每一个网页只围绕一个实体进行介绍,信息详细又全面;2.知识抽取比较简单,因为百度百科每个实体的网页格式较为统一,而且包括很多半结构化信息表,方便后续的知识抽取;3.百度百科的网页内容有专业人士编写,质量相对较高。本文主要开展的工作如下:1.从百度百科网页中获取原始数据,本文采用网络爬虫的方式对百度百科这一半结构化数据源进行爬取,得到实体名称也就是词条名以及对应的html文件,其中要注意的是:百度百科中实体与文章通常是一一对应的,而实体一般对应着文章的标题。由于百度百科的内容过于丰富,所以本文最终只抽取部分三元组进行知识图谱的构建研究。2.进一步对爬虫得到的数据进行处理,首先析取正文,然后从中得到结构化信息,并抽取出三元组,为下文构建的实现打下坚实基础。3.然后通过Neo4j图形数据库对知识图谱进行存储、构建。4.最终对数据进行网页可视化,将后端数据库的查询结果转换后传递给D3在前端画图,实现数据在网页上的查询。

引用

页数：49

共 40 条

[21]

关于邮政企业建设线上业务咨询平台的策略 [J].