基于神经网络语言模型的分布式词向量研究进展

被引:17
作者
郁可人
傅云斌
董启文
机构
[1] 华东师范大学数据科学与工程学院
基金
国家重点研发计划;
关键词
词向量; 语言模型; 神经网络;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络语言模型生成的分布式词向量,Google公司在2012年推出的Word2vec开源工具就是其中之一.分布式词向量已被应用于聚类、命名实体识别、词性分析等自然语言处理任务中,它的性能依赖于神经网络语言模型本身的性能,并与语言模型处理的具体任务有关.本文从三个方面介绍基于神经网络的分布式词向量,包括:经典神经网络语言模型的构建方法;对语言模型中存在的多分类问题的优化方法;如何利用辅助结构训练词向量.
引用
收藏
页码:52 / 65+79 +79
页数:15
相关论文
共 4 条
  • [1] SimLex-999: Evaluating Semantic Models With (Genuine) Similarity Estimation[J] . Felix Hill,Roi Reichart,Anna Korhonen.Computational Linguistics . 2015 (4)
  • [2] Placing search in context[J] . ACM Transactions on Information Systems (TOIS) . 2002 (1)
  • [3] Long short-term memory
    Hochreiter, S
    Schmidhuber, J
    [J]. NEURAL COMPUTATION, 1997, 9 (08) : 1735 - 1780
  • [4] Learning word embeddings efficiently with noise-contrastive estimation .2 Mnih A,Kavukcuoglu K. Advances in Neural Information Processing Systems . 2013