自动文摘系统中的主题划分问题研究

被引:11
作者
傅间莲
陈群秀
机构
[1] 清华大学计算机系智能技术与系统国家重点实验室
关键词
计算机应用; 中文信息处理; 自动文摘; 向量空间模型; 段落相似度; 主题划分;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。
引用
收藏
页码:30 / 37
页数:8
相关论文
共 3 条
[1]   Automatic text structuring and summarization [J].
Salton, G ;
Singhal, A ;
Mitra, M ;
Buckley, C .
INFORMATION PROCESSING & MANAGEMENT, 1997, 33 (02) :193-207
[2]   PROBLEMS IN AUTOMATIC ABSTRACTING [J].
EDMUNDSON, HP .
COMMUNICATIONS OF THE ACM, 1964, 7 (04) :259-263
[3]  
Salton,G.,McGill,M.J. Introduction to Modern Information Retrieval . 1983