基于词向量的实体链接方法

被引:2
作者
齐爱芹
徐蔚然
机构
[1] 北京邮电大学自动化学院
基金
高等学校博士学科点专项科研基金;
关键词
实体链接; 潜在狄利克雷分布; 词向量; 排序学习;
D O I
10.16337/j.1004-9037.2017.03.020
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation,LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。
引用
收藏
页码:604 / 611
页数:8
相关论文
共 13 条
  • [1] Efficient Estimation of Word Representations in Vector Space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean. Arxiv.org . 2013
  • [2] NLPComp in TAC 2012entity linking and slot-filling. Jian Xu,Qin Lu,Jie Liu,et al. https://tac.nist.gov//publications/2012/participant.papers/NLPComp.proceedings.pdf . 2012
  • [3] Entity-based crossdocument coreferencing using the vector space model. Bagga A,Baldwin B. http://www.aclweb.org/anthology/P98-1012 . 1998
  • [4] Large-scale named entity disambiguation based on Wikipedia data. Cucerzan S. https://pdfs.semanticscholar.org/1c90/9ac1c331c0c246a88da047cbdcca9ec9b7e7.pdf . 2007
  • [5] MSIIPL_THU at TAC 2014entity discovery and linking track. Zhao Gang,LüPing,Xu Ruochen,et al. https://tac.nist.gov/protected/2014/TAC2014-workshop-notebook/participant.papers/TAC2014.MSIIPL_THU.notebook.pdf . 2014
  • [6] OpenKN at TAC KBP. Hailun L,Zeya Z,Yantao. https://tac.nist.gov/publications/2015/participant.papers/TAC2015.ICTCAS_OKN.proceedings.pdf . 2015
  • [7] Learning to rank for Information Retrieval. Liu,Tie-Yan. Foundations and Trends in Information Retrieval . 2009
  • [8] 基于多分类SVM-KNN的实体关系抽取方法
    刘绍毓
    周杰
    李弼程
    席耀一
    唐浩浩
    [J]. 数据采集与处理, 2015, 30 (01) : 202 - 210
  • [9] 一种基于概率主题模型的命名实体链接方法
    怀宝兴
    宝腾飞
    祝恒书
    刘淇
    [J]. 软件学报, 2014, 25 (09) : 2076 - 2087
  • [10] 基于LDA主题模型的文本相似度计算
    王振振
    何明
    杜永萍
    [J]. 计算机科学, 2013, 40 (12) : 229 - 232