学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于LSA和pLSA的多文档自动文摘
被引:6
作者
:
论文数:
引用数:
h-index:
机构:
俞辉
机构
:
[1]
中国石油大学计算机与通信工程学院
来源
:
计算机工程与科学
|
2009年
/ 31卷
/ 09期
关键词
:
多文档自动文摘;
潜在语义分析;
奇异值分解;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。
引用
收藏
页码:108 / 111
页数:4
相关论文
共 5 条
[1]
基于潜在语义索引和句子聚类的中文自动文摘
[J].
陈戈
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
陈戈
;
段建勇
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
段建勇
;
论文数:
引用数:
h-index:
机构:
陆汝占
.
计算机仿真,
2008,
(07)
:82
-85
[2]
基于篇章结构的自动文摘方法研究
[J].
论文数:
引用数:
h-index:
机构:
贾果
.
计算机与数字工程,
2007,
(06)
:10
-13+31+195
[3]
基于模糊相似度的科技文献软聚类算法
[J].
孟海涛
论文数:
0
引用数:
0
h-index:
0
机构:
贵州大学计算机系
孟海涛
;
陈笑蓉
论文数:
0
引用数:
0
h-index:
0
机构:
贵州大学计算机系
陈笑蓉
.
贵州大学学报(自然科学版),
2007,
(02)
:175
-178
[4]
基于局部主题判定与抽取的多文档文摘技术
[J].
秦兵
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
秦兵
;
论文数:
引用数:
h-index:
机构:
刘挺
;
李生
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
李生
.
自动化学报,
2004,
(06)
:905
-910
[5]
一种改进K-means聚类算法在多文档文摘中的应用.[A].肖华松;何婷婷;邵伟;胡珀;.第三届全国信息检索与内容安全学术会议.2007,
←
1
→
共 5 条
[1]
基于潜在语义索引和句子聚类的中文自动文摘
[J].
陈戈
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
陈戈
;
段建勇
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
段建勇
;
论文数:
引用数:
h-index:
机构:
陆汝占
.
计算机仿真,
2008,
(07)
:82
-85
[2]
基于篇章结构的自动文摘方法研究
[J].
论文数:
引用数:
h-index:
机构:
贾果
.
计算机与数字工程,
2007,
(06)
:10
-13+31+195
[3]
基于模糊相似度的科技文献软聚类算法
[J].
孟海涛
论文数:
0
引用数:
0
h-index:
0
机构:
贵州大学计算机系
孟海涛
;
陈笑蓉
论文数:
0
引用数:
0
h-index:
0
机构:
贵州大学计算机系
陈笑蓉
.
贵州大学学报(自然科学版),
2007,
(02)
:175
-178
[4]
基于局部主题判定与抽取的多文档文摘技术
[J].
秦兵
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
秦兵
;
论文数:
引用数:
h-index:
机构:
刘挺
;
李生
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
李生
.
自动化学报,
2004,
(06)
:905
-910
[5]
一种改进K-means聚类算法在多文档文摘中的应用.[A].肖华松;何婷婷;邵伟;胡珀;.第三届全国信息检索与内容安全学术会议.2007,
←
1
→