基于多视角特征融合的中文垃圾微博过滤

被引:7
作者
于然 [1 ,2 ]
刘春阳 [3 ]
靳小龙 [1 ]
王元卓 [1 ]
程学旗 [1 ]
机构
[1] 中国科学院计算技术研究所网络数据科学与工程研究中心
[2] 中国科学院大学
[3] 国家计算机网络应急技术处理协调中心
关键词
垃圾微博过滤; 特征选择; 多视角特征融合;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。
引用
收藏
页码:53 / 58
页数:6
相关论文
共 6 条
[1]   一种基于LDA的Web论坛低质量回帖检测方法 [J].
韩晓晖 ;
马军 ;
邵海敏 ;
薛冉 .
计算机研究与发展, 2012, 49 (09) :1937-1946
[2]   基于内容的搜索引擎垃圾网页检测 [J].
贾志洋 ;
李伟伟 ;
张海燕 .
计算机应用与软件, 2009, 26 (11) :165-167
[3]   个性化推荐系统中的用户建模及特征选择 [J].
林霜梅 ;
汪更生 ;
陈弈秋 .
计算机工程, 2007, (17) :196-198+230
[4]   一种高性能的两类中文文本分类方法 [J].
樊兴华 ;
孙茂松 .
计算机学报, 2006, (01) :124-131
[5]   基于关联规则挖掘的中文文本自动分类 [J].
王元珍 ;
钱铁云 ;
冯小年 .
小型微型计算机系统, 2005, (08) :1380-1383
[6]  
Spam filtering for short messages. CORMACK G,MARA J,HIDALGO G,et al. Proceedings of the 6th ACM Conference on Information and Know ledge Management . 2007