基于百度百科的知识图谱构建方法研究

被引:0
作者
杨文
机构
[1] 华中师范大学
关键词
百度百科; 知识图谱; 网络爬虫; 知识抽取; 可视化;
D O I
暂无
年度学位
2019
学位类型
硕士
导师
摘要
随着网络的不断发展,互联网数据内容呈现出爆炸式增长的趋势。由于互联网内容具有大规模、多元化、组织结构松散等特点,如何有效获取信息和知识面临了巨大的挑战。知识图谱(Knowledge Graph)凭借其强大的语义处理和开放组织能力,为互联网时代的知识和智能应用奠定了基础。在现在社会、科学都在飞速发展的大环境下,知识图谱已经渐渐成为一种新颖的管理海量知识的方式。知识图谱图型的数据结构,由实体,关系,属性等组成,基本单元是三元组,其中,实体就是对应图谱中的点,关系对应边,能够很好地把关系展示出来,简单的说,知识图谱可以把不同实体通过其相同的属性或者其他特征用图的方式展现出来,得到一个关系网。知识图谱也开创了一条全新的、从“关系”的角度分析问题的途径。本文旨在构建一个基于百度百科的知识图谱,由于百度百科的网页数据复杂多样,如何从海量网页中获取到有用的知识成为一大挑战。此外,之所以选择百度百科这一数据源是因为它有三大特点:1.获取容易,每一个网页只围绕一个实体进行介绍,信息详细又全面;2.知识抽取比较简单,因为百度百科每个实体的网页格式较为统一,而且包括很多半结构化信息表,方便后续的知识抽取;3.百度百科的网页内容有专业人士编写,质量相对较高。本文主要开展的工作如下:1.从百度百科网页中获取原始数据,本文采用网络爬虫的方式对百度百科这一半结构化数据源进行爬取,得到实体名称也就是词条名以及对应的html文件,其中要注意的是:百度百科中实体与文章通常是一一对应的,而实体一般对应着文章的标题。由于百度百科的内容过于丰富,所以本文最终只抽取部分三元组进行知识图谱的构建研究。2.进一步对爬虫得到的数据进行处理,首先析取正文,然后从中得到结构化信息,并抽取出三元组,为下文构建的实现打下坚实基础。3.然后通过Neo4j图形数据库对知识图谱进行存储、构建。4.最终对数据进行网页可视化,将后端数据库的查询结果转换后传递给D3在前端画图,实现数据在网页上的查询。
引用
收藏
页数:49
共 40 条
[31]
知识图谱研究综述 [J].
李涓子 ;
侯磊 .
山西大学学报(自然科学版), 2017, 40 (03) :454-459
[32]
智能问答系统中命名实体识别问题研究 [J].
费建军 .
数字技术与应用, 2017, (07) :93-96
[33]
知识图谱在智能教学系统中的应用 [J].
任函 ;
孙为 .
开封教育学院学报, 2017, 37 (06) :171-173
[34]
利用D-S证据理论进行特征融合的同义实体识别 [J].
何晶晶 ;
蔡德胜 ;
介飞 ;
吴共庆 .
计算机应用研究, 2018, 35 (05) :1429-1433
[35]
基于本体及Web文本的数控机床知识获取 [J].
刘锴锋 ;
王红军 ;
左云波 .
电子测量与仪器学报, 2017, 31 (04) :651-656
[36]
基于词向量的中文微博实体链接方法 [J].
毛二松 ;
王波 ;
唐永旺 ;
梁丹 .
计算机应用与软件, 2017, 34 (04) :11-15+41
[37]
电子病历命名实体识别和实体关系抽取研究综述 [J].
杨锦锋 ;
于秋滨 ;
关毅 ;
蒋志鹏 .
自动化学报, 2014, 40 (08) :1537-1562
[38]
网络百科信息生态链构成要素与形成机理研究 [J].
刘月学 ;
贾二鹏 .
图书馆学研究, 2014, (02) :31-36
[39]
基于依存关系的中文句子语义分析研究 [J].
李华 ;
朱敏 .
电脑知识与技术, 2012, 8 (04) :856-859+872
[40]
基于企业内部知识网络的知识活动分析 [J].
邢小强 ;
仝允桓 .
科学学与科学技术管理, 2004, (07) :44-47