基于文本聚类技术的主题发现

被引:14
作者
郭建永
蔡勇
甄艳霞
机构
[1] 江南大学信息工程学院
关键词
文本聚类; 主题发现; 层次方法; 簇; 文本挖掘;
D O I
10.16208/j.issn1000-7024.2008.06.039
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题。并提出了一种增量层次聚类算法,该算法结合了划分聚类和凝聚聚类的主要优点。实验结果表明,无论是作为主题检测系统还是分类和概括工具,该算法都是高效的。
引用
收藏
页码:1426 / 1428+1432 +1432
页数:4
相关论文
共 5 条
[1]   中文Web检索中聚类算法的改进 [J].
耿玉良 ;
陈家琪 ;
王咏梅 .
计算机工程与设计, 2005, (10) :2685-2687
[2]  
智能数据挖掘与知识发现.[M].焦李成等; 著.西安电子科技大学出版社.2006,
[3]  
数据挖掘导论.[M].(美)Pang-NingTan;(美)MichaelSteinbach;(美)VipinKumar著;范明;范宏建等译;.人民邮电出版社.2006,
[4]  
数据仓库和数据挖掘.[M].苏新宁[等]编著;.清华大学出版社.2006,
[5]   QCS: A system for querying, clustering and summarizing documents [J].
Dunlavy, Daniel M. ;
O'Leary, Dianne P. ;
Conroy, John M. ;
Schlesinger, Judith D. .
INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) :1588-1605