基于LDA主题模型的文本相似度计算

被引:97
作者
王振振
何明
杜永萍
机构
[1] 北京工业大学计算机学院
基金
北京市自然科学基金;
关键词
主题模型; LDA; 文本相似度; Gibbs抽样;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。
引用
收藏
页码:229 / 232
页数:4
相关论文
共 14 条
[1]   基于LDA主题特征的自动文摘方法 [J].
张明慧 ;
王红玲 ;
周国栋 .
计算机应用与软件, 2011, 28 (10) :20-22+46
[2]   自然语言处理中主题模型的发展 [J].
徐戈 ;
王厚峰 .
计算机学报, 2011, 34 (08) :1423-1436
[3]   基于LDA模型的文本分类研究 [J].
姚全珠 ;
宋志理 ;
彭程 .
计算机工程与应用, 2011, 47 (13) :150-153
[4]   基于Gibbs抽样的测试用例生成技术研究 [J].
马海云 .
自动化与仪器仪表, 2011, (02) :11+14-11
[5]   一种基于LDA的潜在语义区划分及Web文档聚类算法 [J].
刘振鹿 ;
王大玲 ;
冯时 ;
张一飞 ;
方东昊 .
中文信息学报, 2011, (01) :60-65+70
[6]   基于LDA模型的主题分析 [J].
石晶 ;
范猛 ;
李万龙 .
自动化学报, 2009, 35 (12) :1586-1592
[7]   Dirichlet过程及其在自然语言处理中的应用 [J].
徐谦 ;
周俊生 ;
陈家骏 .
中文信息学报, 2009, (05) :25-32+46
[8]   一种基于密度的自适应最优LDA模型选择方法 [J].
曹娟 ;
张勇东 ;
李锦涛 ;
唐胜 .
计算机学报, 2008, (10) :1780-1787
[9]   基于Labeled-LDA模型的文本分类新算法 [J].
李文波 ;
孙乐 ;
张大鲲 .
计算机学报, 2008, (04) :620-627
[10]   一种改进的K-means聚类算法 [J].
王燕 .
计算机应用与软件, 2004, (10) :122-123