共 9 条
一种结合词向量和图模型的特定领域实体消歧方法
被引:8
作者:
汪沛
[1
]
线岩团
[1
,2
]
郭剑毅
[1
,2
]
文永华
[1
,2
]
陈玮
[1
,2
]
王红斌
[1
,2
]
机构:
[1] 昆明理工大学信息工程与自动化学院
[2] 昆明理工大学智能信息处理重点实验室
来源:
关键词:
实体消歧;
实体链接;
Word2Vec;
图模型;
随机游走;
维基百科;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例,首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库,然后用知识库中的文本和从各大旅游网站爬取到的旅游文本,通过词向量计算工具Word2Vec构建词向量模型,结合人工标注的实体关系图谱,采用一种基于图的随机游走算法辅助计算相似度,使其能够较准确地计算旅游领域词与词之间的相似度。最后,提取待消歧实体的背景文本的若干关键词和知识库中候选实体文本的若干关键词,利用训练好的词向量模型结合图模型分别进行交叉相似度计算,把相似度均值最高的候选实体作为最终的目标实体。实验结果表明,这种新的相似度计算方法能够有效获取实体指称项与目标实体之间的相似度,从而能够较为准确地实现特定领域的实体消歧。
引用
收藏
页码:366 / 375
页数:10
相关论文