一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA

被引:9
作者
刘德喜 [1 ]
何炎祥 [2 ]
姬东鸿 [3 ]
杨华 [2 ]
机构
[1] 襄樊学院
[2] 武汉大学计算机学院
[3] 武汉大学语言与信息研究中心
基金
国家自然科学基金重大研究计划;
关键词
计算机应用; 中文信息处理; 多文档自动摘要; 演化算法; 句子抽取; 评价函数; TFS;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP319 [专用应用软件];
学科分类号
081203 ; 0835 ; 081202 ;
摘要
SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法的评价函数中考虑了衡量摘要的4个标准:长度符合用户要求、信息覆盖率高、更多地保留原文传递的重要信息、无冗余。另外,为了提高词频计算的精度,SBGA采用了一种改进的词频计算方法TFS,将加权后词的同义词频率加到了原词频中。在DUC2004测试数据集上的实验结果表明,基于演化算法进行句子抽取的方法有很好的性能,其ROUGE-1分值比DUC2004最优参赛系统仅低0.55%。改进的词频计算方法TFS对提高文档质量也起到了良好的作用。
引用
收藏
页码:46 / 53
页数:8
相关论文
共 3 条
[1]   多文档自动文摘综述 [J].
秦兵 ;
刘挺 ;
李生 .
中文信息学报, 2005, (06) :15-22+58
[2]   基于HowNet概念获取的中文自动文摘系统 [J].
王萌 ;
何婷婷 ;
姬东鸿 ;
王晓荣 .
中文信息学报, 2005, (03) :87-93
[3]   组合优化多智能体进化算法 [J].
钟伟才 ;
刘静 ;
刘芳焦 ;
李成 .
计算机学报, 2004, (10) :1341-1354