一种结合主动学习的半监督文档聚类算法

被引:30
作者
赵卫中 [1 ,2 ]
马慧芳 [3 ,2 ]
李志清 [1 ]
史忠植 [2 ]
机构
[1] 湘潭大学信息工程学院
[2] 中国科学院计算技术研究所智能信息处理重点实验室
[3] 西北师范大学数学与信息科学学院
基金
湖南省自然科学基金;
关键词
半监督聚类; 文档聚类; 主动学习; 成对约束;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP311.13 [];
学科分类号
081203 ; 0835 ; 1201 ;
摘要
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法.
引用
收藏
页码:1486 / 1499
页数:14
相关论文
共 7 条
[1]   半监督聚类的若干新进展 [J].
李昆仑 ;
曹铮 ;
曹丽苹 ;
张超 ;
刘明 .
模式识别与人工智能, 2009, 22 (05) :735-742
[2]   密度敏感的半监督谱聚类 [J].
王玲 ;
薄列峰 ;
焦李成 .
软件学报, 2007, (10) :2412-2422
[3]   Exploiting noun phrases and semantic relationships for text document clustering [J].
Zheng, Hai-Tao ;
Kang, Bo-Yeong ;
Kim, Hong-Gee .
INFORMATION SCIENCES, 2009, 179 (13) :2249-2262
[4]   Harmony K-means algorithm for document clustering [J].
Mahdavi, Mehrdad ;
Abolhassani, Hassan .
DATA MINING AND KNOWLEDGE DISCOVERY, 2009, 18 (03) :370-391
[5]  
An active learning framework for semi-supervised document clustering with language modeling[J] . Ruizhang Huang,Wai Lam.Data & Knowledge Engineering . 2008 (1)
[6]  
Concept Decompositions for Large Sparse Text Data Using Clustering[J] . Inderjit S. Dhillon,Dharmendra S. Modha.Machine Learning . 2001 (1)
[7]  
Less is More: Active Learning with Support Vector Machines .2 Schohn G,Cohn D. Proceedings of the Seventeenth International Conference on Machine Learning . 2000