基于聚类与语义相似分析的多文本自动摘要方法

被引:6
作者
杜秀英
机构
[1] 广州航海学院图书馆
关键词
自动摘要; 云计算; 多文本; 聚类; 语义相似; 分布式处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文本自动摘要方法。该方法在文本向量化基础上,通过MapReduce框架对多文本进行聚类、主题抽取、主题词及语义相似词频率统计等处理,然后摘取主题句构造出多文本摘要。[结果/结论]实验结果证实,基于聚类与语义相似分析的MapReduce自动摘要架构在生成大规模多文本摘要时,不但具有较好的时间性能,同时也具有较好的压缩效果并保证较高的摘要质量。
引用
收藏
页码:167 / 172
页数:6
相关论文
共 13 条
[1]   基于高质量信息提取的微博自动摘要 [J].
彭敏 ;
高斌龙 ;
黄济民 ;
刘纪平 .
计算机工程, 2015, 41 (07) :36-42
[2]   使用关键词扩展的新闻文本自动摘要方法 [J].
李峰 ;
黄金柱 ;
李舟军 ;
杨伟铭 .
计算机科学与探索, 2016, (03) :372-380
[3]   基于Hadoop平台的LDA算法的并行化实现 [J].
张钊 ;
张新峰 ;
郑楠 ;
贵明俊 .
计算机工程与科学, 2016, 38 (02) :231-239
[4]   基于k-means文本聚类的新浪微博个性化博文推荐研究 [J].
谭晋秀 ;
何跃 .
情报科学 , 2016, (04) :74-79
[5]   基于HowNet的微博文本语义检索研究 [J].
王李冬 ;
张慧熙 .
情报科学, 2016, 34 (09) :134-137
[6]  
A complex network approach to text summarization[J] .  &nbspInformation Sciences . 2008 (5)
[7]  
基于动态质心的Web文本分类方法及应用研究[D]. 蒋翠翠.中国科学院深圳先进技术研究院 2014
[8]   NEW METHODS IN AUTOMATIC EXTRACTING [J].
EDMUNDSON, HP .
JOURNAL OF THE ACM, 1969, 16 (02) :264-+
[9]   一种基于LexRank算法的改进的自动文摘系统 [J].
纪文倩 ;
李舟军 ;
巢文涵 ;
陈小明 .
计算机科学, 2010, 37 (05) :151-154+218
[10]   基于LDA的微博文本主题建模方法研究述评 [J].
张培晶 ;
宋蕾 .
图书情报工作, 2012, 56 (24) :120-126