改进的潜在语义分析中文摘录方法

被引：8

作者：

肖升 ^{[1
,2
]}

何炎祥 ^{[1
]}

机构：

[1] 武汉大学计算机学院

[2] 湖南第一师范学院信息科学与工程系

来源：

计算机应用研究 | 2012年 / 29卷 / 12期

关键词：

自动文摘; 自动摘录; 潜在语义分析; 奇异值分解; 潜在概念;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。

引用

页码：4507 / 4511

页数：5

共 14 条

[1] 潜在语义分析理论及其应用 [J].

盖杰 ;

王怡 ;

武港山 .

计算机应用研究, 2004, (03) :9-12+20

[2]

Generictext summarization usingrelevancemeasure and latent semantic analysis. GONGYi-hong,LIUXin. Proc of the 24th AnnualInternational ACM SIGIR Conference on Research and Developmentin Information Retrieval . 2001

[3]

Text summarization using latent se-mantic analysis. OZSOY M G,ALPASLAN F N. Journal of Information Science . 2011

[4]

Using latent semantic analysis in textsummarization and summary evaluation. STEINBERGER J,JEZEK K. Proc of ISIM . 2004

[5]

新闻话题表示模型和关联追踪技术研究[D]. 张晓艳.国防科学技术大学 2010

[6]

Extractive summarization ofmeeting recordings. MURRAY G,RENALS S,CARLETTA J. Proc of the 9th European Conference onSpeech Communication and Technology . 2005

[7] 基于PLSA模型的文本分割 [J].