一种结合词向量和图模型的特定领域实体消歧方法

被引:8
作者
汪沛 [1 ]
线岩团 [1 ,2 ]
郭剑毅 [1 ,2 ]
文永华 [1 ,2 ]
陈玮 [1 ,2 ]
王红斌 [1 ,2 ]
机构
[1] 昆明理工大学信息工程与自动化学院
[2] 昆明理工大学智能信息处理重点实验室
关键词
实体消歧; 实体链接; Word2Vec; 图模型; 随机游走; 维基百科;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例,首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库,然后用知识库中的文本和从各大旅游网站爬取到的旅游文本,通过词向量计算工具Word2Vec构建词向量模型,结合人工标注的实体关系图谱,采用一种基于图的随机游走算法辅助计算相似度,使其能够较准确地计算旅游领域词与词之间的相似度。最后,提取待消歧实体的背景文本的若干关键词和知识库中候选实体文本的若干关键词,利用训练好的词向量模型结合图模型分别进行交叉相似度计算,把相似度均值最高的候选实体作为最终的目标实体。实验结果表明,这种新的相似度计算方法能够有效获取实体指称项与目标实体之间的相似度,从而能够较为准确地实现特定领域的实体消歧。
引用
收藏
页码:366 / 375
页数:10
相关论文
共 9 条
[1]   基于词向量特征的循环神经网络语言模型 [J].
张剑 ;
屈丹 ;
李真 .
模式识别与人工智能, 2015, 28 (04) :299-305
[2]   一种基于概率主题模型的命名实体链接方法 [J].
怀宝兴 ;
宝腾飞 ;
祝恒书 ;
刘淇 .
软件学报, 2014, 25 (09) :2076-2087
[3]   基于异构知识库的命名实体消歧 [J].
宁博 ;
张菲菲 .
西安邮电大学学报, 2014, 19 (04) :70-76
[4]   中文微博实体链接研究 [J].
朱敏 ;
贾真 ;
左玲 ;
吴安峻 ;
陈方正 ;
柏玉 .
北京大学学报(自然科学版), 2014, 50 (01) :73-78
[5]   开放式文本信息抽取 [J].
赵军 ;
刘康 ;
周光有 ;
蔡黎 .
中文信息学报, 2011, 25 (06) :98-110
[6]   一种基于随机游走模型的多标签分类算法 [J].
郑伟 ;
王朝坤 ;
刘璋 ;
王建民 .
计算机学报, 2010, 33 (08) :1418-1426
[7]   命名实体识别、排歧和跨语言关联 [J].
赵军 .
中文信息学报, 2009, (02) :3-17
[8]   On graph-based name disambiguation [J].
Fan X. ;
Wang J. ;
Pu X. ;
Zhou L. ;
Lv B. .
Journal of Data and Information Quality, 2011, 2 (02)
[9]   A tutorial on spectral clustering [J].
von Luxburg, Ulrike .
STATISTICS AND COMPUTING, 2007, 17 (04) :395-416