基于LDA主题特征的自动文摘方法

被引:25
作者
张明慧
王红玲
周国栋
机构
[1] 苏州大学计算机科学与技术学院
[2] 江苏省计算机信息处理技术重点实验室
关键词
自动文摘; LDA; 主题模型; 多文档;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。
引用
收藏
页码:20 / 22+46 +46
页数:4
相关论文
共 2 条
[1]   多文档自动文摘中的特征组合优化 [J].
刘茂福 ;
李淑君 ;
金可佳 ;
张晓龙 .
计算机系统应用, 2008, (08) :59-63
[2]   多文档自动文摘综述 [J].
秦兵 ;
刘挺 ;
李生 .
中文信息学报, 2005, (06) :15-22+58