一种消除孤立点的微博热点话题发现方法

被引:9
作者
赖锦辉 [1 ]
梁松 [2 ]
机构
[1] 广东石油化工学院实验教学部计算机中心
[2] 广东石油化工学院计算机与电子信息学院
关键词
微博热点话题; 孤立点; CURE算法; 发现;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
080402 ; 081203 ; 0835 ;
摘要
微博具有数量多、字数少、话题广泛等特点,导致数据中孤立点较多,对微博热点话题聚类算法产生不利影响,为此,提出一种消除孤立点的微博热点话题发现方法。首先消除数据集中的孤立点,然后采用CURE(Clustering Using Representatives)算法对剩余有聚类价值的数据进行聚类,最后通过实例验证算法的有效性。结果表明,相对于对比聚类算法,该算法降低聚类结果对孤立点的敏感度,提高了微博热点话题发现的准确性,并提高了算法的运行效率,更适合应用于大规模的微博热点话题发现。
引用
收藏
页码:105 / 107+139 +139
页数:4
相关论文
共 11 条
[1]   基于层次划分的最佳聚类数确定方法 [J].
陈黎飞 ;
姜青山 ;
王声瑞 .
软件学报, 2008, (01) :62-72
[2]  
微博客热点话题发现策略研究[D]. 杨冠超.浙江大学 2011
[3]   一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[4]  
Topic detection by clustering keywords. Christian,Wartena,,Rogier,et al. Proceedings of the 19thInternational Conference on Database and Expert Systems Application . 2008
[5]  
Exploring traversal strategy for web forum crawling. Wang Yida,Yang Jiang-Ming,Lai Wei, et al. Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval . 2008
[6]   一种改进的孤立点消除及网络文本聚类算法 [J].
罗姗姗 ;
杜庆治 ;
杨秋萍 ;
龙华 .
云南师范大学学报(自然科学版), 2012, 32 (01) :48-51
[7]  
iRobot:An intelli-gent crawler for Web forums. CAI R,YANG J M,LAI W,et al. Proceedings of the17th International Conference on World Wide Web . 2008
[8]   基于相对密度的增量式聚类算法 [J].
刘青宝 ;
侯东风 ;
邓苏 ;
张维明 .
国防科技大学学报, 2006, (05) :73-79
[9]   基于模糊聚类的网络论坛热点话题挖掘 [J].
鲁明羽 ;
姚晓娜 ;
魏善岭 .
大连海事大学学报, 2008, 34 (04) :52-54+58
[10]   基于改进CURE聚类算法的无监督异常检测方法 [J].
周亚建 ;
徐晨 ;
李继国 .
通信学报, 2010, 31 (07) :18-23+32