基于完全稀疏主题模型的多文档自动摘要

被引:1
作者
邵洲
张晖
机构
[1] 西南科技大学计算机科学与技术学院
关键词
完全稀疏主题模型; 多文档摘要; 稀疏性; 句子权重计算; DUC 2007;
D O I
10.16208/j.issn1000-7024.2014.03.050
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了解决稀疏情况下的自动文档摘要问题,将提出的完全稀疏主题模型引入到文档摘要中。根据模型中主题分布和主题的词汇分布,提出了该模型上的自动摘要算法。为了验证该方法的有效性,在DUC 2007数据集上使用ROUGE自动摘要评测工具进行评测。通过与DUC 2007中专家摘要和对多种实验的比较,比较结果表明,该摘要方法在准确率上显著优于其它方法,同时在推断时间、方法的简单性等各个方面也都具有优势。
引用
收藏
页码:1032 / 1036
页数:5
相关论文
共 14 条
[1]  
基于词汇链和PageRank的多文档自动文摘研究[D]. 肖欣延.厦门大学 2008
[2]   主题模型LDA的多文档自动文摘 [J].
杨潇 ;
马军 ;
杨同峰 ;
杜言琦 ;
邵海敏 .
智能系统学报, 2010, 5 (02) :169-176
[3]   基于LDA模型的文本分类研究 [J].
姚全珠 ;
宋志理 ;
彭程 .
计算机工程与应用 , 2011, (13) :150-153
[4]   基于LDA主题特征的自动文摘方法 [J].
张明慧 ;
王红玲 ;
周国栋 .
计算机应用与软件, 2011, 28 (10) :20-22+46
[5]  
Chang Y L,Chien J T.Latent dirichlet learning for document summarization. IEEE International Conference on Acoustics,Speech and Signal Processing . 2009
[6]  
Paul M J,Dredze M.Drug extraction from the web:Summarizing drug experiences with multi-dimensional topic models. NAACL . 2013
[7]  
Li J,Li S.A novel feature-based Bayesian model for query focused multi-document summarization. Transactions of Association for Computational Linguistics . 2013
[8]  
Than K,Ho T B.Fully sparse topic models. Machine Learning and Knowledge Discovery in Databases . 2012
[9]  
Liang X,Qu Y,Ma G.Research on extension LexRank in summarization for opinionated texts. Proceedings of the13th International Conference on Parallel and Distributed Computing,Applications and Technologies . 2012
[10]   基于LDA模型的文本分类研究 [J].
姚全珠 ;
宋志理 ;
彭程 .
计算机工程与应用 , 2011, (13) :150-153