改进的潜在语义分析中文摘录方法

被引:8
作者
肖升 [1 ,2 ]
何炎祥 [1 ]
机构
[1] 武汉大学计算机学院
[2] 湖南第一师范学院信息科学与工程系
关键词
自动文摘; 自动摘录; 潜在语义分析; 奇异值分解; 潜在概念;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。
引用
收藏
页码:4507 / 4511
页数:5
相关论文
共 14 条
[1]   潜在语义分析理论及其应用 [J].
盖杰 ;
王怡 ;
武港山 .
计算机应用研究, 2004, (03) :9-12+20
[2]  
Generictext summarization usingrelevancemeasure and latent semantic analysis. GONGYi-hong,LIUXin. Proc of the 24th AnnualInternational ACM SIGIR Conference on Research and Developmentin Information Retrieval . 2001
[3]  
Text summarization using latent se-mantic analysis. OZSOY M G,ALPASLAN F N. Journal of Information Science . 2011
[4]  
Using latent semantic analysis in textsummarization and summary evaluation. STEINBERGER J,JEZEK K. Proc of ISIM . 2004
[5]  
新闻话题表示模型和关联追踪技术研究[D]. 张晓艳.国防科学技术大学 2010
[6]  
Extractive summarization ofmeeting recordings. MURRAY G,RENALS S,CARLETTA J. Proc of the 9th European Conference onSpeech Communication and Technology . 2005
[7]   基于PLSA模型的文本分割 [J].
石晶 ;
戴国忠 .
计算机研究与发展, 2007, (02) :242-248
[8]   基于信息融合的多文档自动文摘技术 [J].
徐永东 ;
徐志明 ;
王晓龙 .
计算机学报, 2007, (11) :2048-2054
[9]   自动文摘评价方法综述 [J].
张瑾 ;
王小磊 ;
许洪波 .
中文信息学报, 2008, (03) :81-88
[10]   以关键词抽取为核心的文摘句选择策略 [J].
马亮 ;
何婷婷 ;
李芳 ;
陈劲光 ;
邵伟 .
中文信息学报, 2008, (06) :50-54