基于词向量语义分类的微博实体链接方法

被引:13
作者
冯冲 [1 ]
石戈 [1 ]
郭宇航 [1 ]
龚静 [1 ]
黄河燕 [1 ,2 ]
机构
[1] 北京理工大学计算机学院
[2] 北京市海量语言信息处理与云计算应用工程技术研究中心
基金
国家高技术研究发展计划(863计划); 高等学校博士学科点专项科研基金;
关键词
词向量; 实体链接; 社会媒体处理; 神经网络; 多分类;
D O I
10.16383/j.aas.2016.c150715
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
摘要
微博实体链接是把微博中给定的指称链接到知识库的过程,广泛应用于信息抽取、自动问答等自然语言处理任务(Natural language processing,NLP).由于微博内容简短,传统长文本实体链接的算法并不能很好地用于微博实体链接任务.以往研究大都基于实体指称及其上下文构建模型进行消歧,难以识别具有相似词汇和句法特征的候选实体.本文充分利用指称和候选实体本身所含有的语义信息,提出在词向量层面对任务进行抽象建模,并设计一种基于词向量语义分类的微博实体链接方法.首先通过神经网络训练词向量模板,然后通过实体聚类获得类别标签作为特征,再通过多分类模型预测目标实体的主题类别来完成实体消歧.在NLPCC2014公开评测数据集上的实验结果表明,本文方法的准确率和召回率均高于此前已报道的最佳结果,特别是实体链接准确率有显著提升.
引用
收藏
页码:915 / 922
页数:8
相关论文
共 7 条
  • [1] 一种基于组合语义的文本情绪分析模型
    乌达巴拉
    汪增福
    [J]. 自动化学报, 2015, 41 (12) : 2125 - 2137
  • [2] 考虑梯度信息的ε-支持向量回归机[J]. 周晓剑. 自动化学报. 2014(12)
  • [3] 电子病历命名实体识别和实体关系抽取研究综述
    杨锦锋
    于秋滨
    关毅
    蒋志鹏
    [J]. 自动化学报, 2014, 40 (08) : 1537 - 1562
  • [4] 基于密度估计的逻辑回归模型
    毛毅
    陈稳霖
    郭宝龙
    陈一昕
    [J]. 自动化学报, 2014, 40 (01) : 62 - 72
  • [5] 中文微博实体链接研究
    朱敏
    贾真
    左玲
    吴安峻
    陈方正
    柏玉
    [J]. 北京大学学报(自然科学版), 2014, 50 (01) : 73 - 78
  • [6] 基于上下文的实体链指技术研究[D]. 郭宇航.哈尔滨工业大学. 2014
  • [7] Evaluating Entity Linking with Wikipedia[J] . Ben Hachey,Will Radford,Joel Nothman,Matthew Honnibal,James R. Curran. Artificial Intelligence . 2013