面向科研人员的多数据源命名实体消歧方法研究

被引:0
作者
林丹琼
机构
[1] 北京林业大学
关键词
命名实体消歧; 科研人员; 分类化; 结构化;
D O I
10.26949/d.cnki.gblyu.2019.000473
年度学位
2019
学位类型
硕士
导师
摘要
在网络信息呈爆炸式增长的今天,通过搜索引擎查询信息已成为人们信息检索的主要方式,而实体重名现象的普遍性导致了检索结果存在极大歧义性。如何高效地消除歧义,成为了搜索引擎亟待解决的问题,而实体消歧就是解决这一核心问题的关键技术。本文结合多数据源,提出了基于多主属性分类化和结构化语义关系的命名实体消歧算法。该算法面向科研人员信息展开消歧研究,融合其在中国知网、百度百科等多个数据源的分散信息,提取实体多主属性,先后计算实体间的结构化语义关系和分类化语义关系,得到实体间的相似度,并运用聚类算法实现实体消歧。结构化语义关系算法通过构建语义关系图来挖掘实体间的显式和隐式语义关系,而基于多主属性的分类化语义关系算法则通过提取实体的多主属性与非主属性先后进行计算得到实体间的分类化语义关系。基于该算法,本文最后实现了一个面向科研人员的多数据源命名实体消歧系统,该系统接收用户关于科研人员检索信息的输入,将检索信息与采集到的科研人员实体数据集进行消歧计算并返回消歧结果。实验表明,将基于多主属性分类化和结构化语义关系的命名实体消歧算法运用于科研人员实体消歧,极大提高了科研人员信息检索系统的准确率和召回率。
引用
收藏
页数:59
共 22 条
[21]
用于数据挖掘的聚类算法 [J].
姜园 ;
张朝阳 ;
仇佩亮 ;
周东方 .
电子与信息学报, 2005, (04) :655-662
[22]
根据用户隐式反馈建立和更新用户兴趣模型 [J].
孙铁利 ;
杨凤芹 .
东北师大学报(自然科学版), 2003, (03) :99-104