基于连续段落相似度的主题划分算法

被引:10
作者
傅间莲
陈群秀
机构
[1] 清华大学计算机科学与技术系智能技术与系统国家重点实验室
关键词
自动文摘; 向量空间模型; 段落相似度; 主题划分;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.4%,对单主题文章的主题划分准确率为99.1%。
引用
收藏
页码:2022 / 2024
页数:3
相关论文
共 2 条
[1]   Automatic text structuring and summarization [J].
Salton, G ;
Singhal, A ;
Mitra, M ;
Buckley, C .
INFORMATION PROCESSING & MANAGEMENT, 1997, 33 (02) :193-207
[2]  
Salton,G.,McGill,M.J. Introduction to Modern Information Retrieval . 1983