一种融入用户点击模型Word2Vec查询词聚类

被引:4
作者
杨河彬
贺樑
杨静
机构
[1] 华东师范大学计算机应用研究所
[2] 华东师范大学上海市多维度信息处理重点实验室
关键词
查询词; 聚类; Word2Vec; 点击模型; CT-Word2Vec;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
用户查询聚类能够帮助搜索引擎了解当前热点、用户兴趣及需求,在搜索引擎性能优化及定向广告投放等起到了非常重要的作用.基于用户查询词长度非常短的特点,提出基于Word2Vec的词向量的用户查询词表示方法.并在Word2Vec的基础上提出CT-Word2Vec神经网络语言模型.CT-Word2Vec模型不仅利用词汇的上下文信息将词转化成向量,而且还将用户的搜索点击行为融入词向量的学习过程当中.聚类实验结果表明,基于Word2Vec的词向量的查询词表示方法相对于传统的词袋法在熵、纯度衡量指标上有20%到30%的提高.基于CT-Word2Vec的词向量表示方法与Word2Vec相比有2%到4%的提升.
引用
收藏
页码:676 / 681
页数:6
相关论文
共 4 条
  • [1] 融合广告主行为的拍卖词实时触发
    解忠乾
    常笑
    姬东鸿
    [J]. 计算机应用, 2014, 34 (09) : 2566 - 2570
  • [2] 利用word2vec对中文词进行聚类的研究
    郑文超
    徐鹏
    [J]. 软件, 2013, 34 (12) : 160 - 162
  • [3] 基于word2vec与语义相似度的领域词语聚类[A]. 罗杰,王庆林,李原.第三十三届中国控制会议论文集(A卷)[C]. 2014
  • [4] Short text similarity based on probabilistic topics
    Quan, Xiaojun
    Liu, Gang
    Lu, Zhi
    Ni, Xingliang
    Wenyin, Liu
    [J]. KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 25 (03) : 473 - 491