基于信息融合的多文档自动文摘技术

被引:25
作者
徐永东
徐志明
王晓龙
机构
[1] 哈尔滨工业大学计算机学院智能技术与自然语言处理研究室
[2] 哈尔滨工业大学计算机学院智能技术与自然语言处理研究室 哈尔滨
基金
国家自然科学基金重点项目;
关键词
多文本框架; 多文档自动文摘; 信息融合; 时间;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果.
引用
收藏
页码:2048 / 2054
页数:7
相关论文
共 4 条
[1]   基于篇章多级依存结构的自动文摘研究 [J].
刘挺 ;
王开铸 ;
不详 .
计算机研究与发展 , 1999, (04) :96-105
[2]  
基于粗集的汉语建模及其应用研究[D]. 陈清才.哈尔滨工业大学. 2003
[3]  
An Inquiry into the Nature of Multidocument Abstracts, Extracts, and Their Evaluation .2 Marcu. D,and L. Gerber. Proceedings of the NAACL-2001 Workshop on Automatic Summarization . 2001
[4]  
Aclustering based approach to creating multi-document summaries .2 Boros E et al. Proceedings of the 24th Annual Inter-national ACM SIGIR Conference on Research and Develop-ment in Information Retrieval . 2001