基于LSA和pLSA的多文档自动文摘

被引:6
作者
俞辉
机构
[1] 中国石油大学计算机与通信工程学院
关键词
多文档自动文摘; 潜在语义分析; 奇异值分解;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。
引用
收藏
页码:108 / 111
页数:4
相关论文
共 5 条
[1]   基于潜在语义索引和句子聚类的中文自动文摘 [J].
陈戈 ;
段建勇 ;
陆汝占 .
计算机仿真, 2008, (07) :82-85
[2]   基于篇章结构的自动文摘方法研究 [J].
贾果 .
计算机与数字工程, 2007, (06) :10-13+31+195
[3]   基于模糊相似度的科技文献软聚类算法 [J].
孟海涛 ;
陈笑蓉 .
贵州大学学报(自然科学版), 2007, (02) :175-178
[4]   基于局部主题判定与抽取的多文档文摘技术 [J].
秦兵 ;
刘挺 ;
李生 .
自动化学报, 2004, (06) :905-910
[5]  
一种改进K-means聚类算法在多文档文摘中的应用.[A].肖华松;何婷婷;邵伟;胡珀;.第三届全国信息检索与内容安全学术会议.2007,