一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法

被引:15
作者
王琳 [1 ]
冯时 [1 ,2 ]
徐伟丽 [1 ]
杨卓 [1 ]
王大玲 [1 ,2 ]
张一飞 [1 ,2 ]
机构
[1] 东北大学信息科学与工程学院
[2] 医学影像计算教育部重点实验室(东北大学)
关键词
微博客; 噪音微博; 相似微博; 文本流; 过滤;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
微博客作为一种新的用户信息传播载体,在网络舆情发起和传播中起着重要作用。由于用户有意(上传广告)、无意(转发)操作所带来的大量噪音微博和相似微博,对网络舆情分析和用户浏览造成极为不利的影响。检测这些噪音微博和相似微博,对微博数据进行提纯,成为一个亟待解决的问题。基于统计数据分析了噪音微博和相似微博的特点,提出一种面向微博文本流的噪音判别和内容相似性双重检测的过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过分段过滤和索引过滤的双重内容过滤,检测和剔除相似微博。实验表明该方法能有效地对微博数据进行提纯,高效准确地过滤掉相似微博和噪音微博。
引用
收藏
页码:25 / 29+94 +94
页数:6
相关论文
共 2 条
[1]   Twitter中近似重复消息的判定方法研究 [J].
曹鹏 ;
李静远 ;
满彤 ;
刘悦 ;
程学旗 .
中文信息学报, 2011, (01) :20-27
[2]  
网络信息过滤原理与应用.[M].黄晓斌等编著;.北京图书馆出版社.2005,