共 3 条
基于LDA的中文文本相似度计算
被引:22
作者:
孙昌年
[1
,2
]
郑诚
[1
,2
]
夏青松
[1
,2
]
机构:
[1] 安徽大学计算机科学与技术学院
[2] 教育部计算智能与信号处理重点实验室
来源:
基金:
安徽省自然科学基金;
关键词:
向量空间模型;
文本相似度;
自然语言处理;
潜在狄里克雷分配;
主题模型;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的文本相似度计算方法,LDA模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用JS(Jensen-Shannon)距离来计算文本相似度。通过聚类实验表明该方法取得了较高的F值。
引用
收藏
页码:217 / 220
页数:4
相关论文