基于LDA的中文词语相似度计算

被引:6
作者
吕亚伟
李芳
戴龙龙
机构
[1] 北京化工大学信息科学与技术学院
关键词
词语相似度; latent Dirichlet allocation(LDA); 主题模型;
D O I
10.13543/j.bhxbzr.2016.05.014
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对基于语料库统计的词语相似度计算方法存在的一些缺陷,如:计算量大、向量的特征维度高、特征稀疏、忽略了词语的语义信息等,提出了一种基于latent Dirichlet allocation(LDA)的词语相似度计算方法,通过将词语的特征向量映射为词语的主题分布来计算词语间的相似度;通过与基于《知网》的词语相似度计算方法的对比,证明了该方法能有效降低特征维度,并具有较好的词语相似度计算效果。
引用
收藏
页码:79 / 83
页数:5
相关论文
共 11 条
  • [1] 基于百度百科的词语相似度计算
    詹志建
    梁丽娜
    杨小平
    [J]. 计算机科学, 2013, 40 (06) : 199 - 202
  • [2] 基于LDA的中文文本相似度计算
    孙昌年
    郑诚
    夏青松
    [J]. 计算机技术与发展, 2013, 23 (01) : 217 - 220
  • [3] 基于《知网》的词语相似度算法研究
    刘青磊
    顾小丰
    [J]. 中文信息学报, 2010, 24 (06) : 31 - 36
  • [4] 一种基于语境的词语相似度计算方法
    蔡东风
    白宇
    于水
    叶娜
    任晓娜
    [J]. 中文信息学报, 2010, 24 (03) : 24 - 28
  • [5] 一种改进的基于《知网》的词语相似度计算方法
    林丽
    薛方
    任仲晟
    [J]. 计算机应用, 2009, 29 (01) : 217 - 220
  • [6] 互联网环境下的中文热词与方言词汇的定量研究[D]. 张燕.清华大学. 2014
  • [7] 中文词汇知识获取算法和语义计算研究及应用[D]. 刘兴林.华南理工大学. 2012
  • [8] Semantic Similarity Assessment Using Differential Evolution Algorithm in Continuous Vector Space[J] . Wei Lu,Yuanyuan Cai,Xiaoping Che,Kailun Shi.Journal of Visual Languages and Computing . 2015
  • [9] Summarization of changes in dynamic text collections using Latent Dirichlet Allocation model
    Kar, Manika
    Nunes, Sergio
    Ribeiro, Cristina
    [J]. INFORMATION PROCESSING & MANAGEMENT, 2015, 51 (06) : 809 - 833
  • [10] A WordNet-based semantic similarity measurement combining edge-counting and information content theory[J] . Jian-Bo Gao,Bao-Wen Zhang,Xiao-Hua Chen.Engineering Applications of Artificial Intelligen . 2015