基于用户影响力的微博数据采集技术

被引:2
作者
周雪 [1 ,2 ]
刘乃文 [1 ,2 ]
机构
[1] 山东师范大学信息科学与工程学院
[2] 山东省分布式计算机软件新技术重点实验室
关键词
新浪API; 网络爬虫; 用户影响力; 贝叶斯概率; PageRank;
D O I
暂无
中图分类号
TP393.092 []; TP274.2 [];
学科分类号
摘要
微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的基础上,提出了一种基于用户影响力的微博用户信息采集方案.将每一个API调用封装成一个Task类嵌入到具有模拟登陆功能的爬虫程序中,通过贝叶斯-Pagerank算法量化微博用户之间的关注关系得到用户的影响力值,依据用户影响力值决定爬取顺序,可以在有限的时间内采集到更多有价值的节点信息.实验结果表明该方案在微博数据采集的效率与性能上都有较大提高.
引用
收藏
页码:34 / 39
页数:6
相关论文
共 8 条
[1]  
Comparison of microblogging service between Sina Weibo and Twitter. Chen S,Zhang H,Lin M,et al. Computer Science and Network Technology (ICCSNT),2011International Conference on . 2011
[2]   一种基于模拟登录的微博数据采集方案 [J].
孙青云 ;
王俊峰 ;
赵宗渠 ;
高梦超 .
计算机技术与发展, 2014, 24 (03) :6-10
[3]   基于熵值的网络论坛热点话题发现 [J].
孙永利 ;
李东 ;
张玥 .
计算机工程, 2014, 40 (06) :312-316
[4]   新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305
[5]  
Focused Web Crawling Based on Domain Ontology. Dai Kuan,Zhao Hui,et al. IEEE International Symposium on Medicine and Education . 2013
[6]   微博分析研究综述 [J].
刘滨 ;
张静远 ;
刘强 ;
赵静阳 ;
李寒 ;
徐巍巍 .
河北科技大学学报, 2015, (01) :100-110
[7]   微博社会网络重要用户节点筛选及舆情引导 [J].
谢天保 ;
张晓雯 ;
仵凯博 .
计算机科学, 2014, 41(S1) (S1) :400-405
[8]   基于多策略的新浪微博大数据抓取及应用 [J].
孙晓 ;
叶嘉麒 ;
唐陈意 ;
任福继 .
合肥工业大学学报(自然科学版), 2014, 37 (10) :1210-1215