面向新浪微博的数据采集和社区发现算法研究

被引：0

作者：

史春永

机构：

[1] 华中科技大学

关键词：

社交网络; 数据采集; 海量数据; 社区发现;

D O I：

暂无

年度学位：

2012

学位类型：

硕士

导师：

李芝棠;

摘要：

伴随着互联网和移动通信技术的飞速发展，越来越多的人们正通过在线网络进行各种社会活动。社会网络的组构、以及其上的信息传递正在突破时空和管理边界，影响到各国网民和各个角落。社交网络（或称在线社会网络）已经成为现实社会的重要组成部分之一。对在线社交网络研究也随之倍受关注，成为了现下科学研究领域的一个热点问题。社交网络具有规模庞大，结构复杂以及海量信息实时传播的特征，因此，如何对海量数据进行采集、存储和分析成为亟需研究的问题。面对如此庞大的数据，数据采集平台使用了一种基于分布式的数据采集平台，其全局设计采用C/S架构，分布式的数据采集策略；为了减小索引服务器的性能瓶颈，在索引服务器上采用了数据切分、二级缓存队列等技术；而在爬虫机的设计中，为了提高爬虫机的数据采集效率，同样利用了二级缓存技术来减小线程的耦合度，并采用线程池、账户轮换等技术来提高爬虫机的并行性和突破新浪微博的访问限制。数据存储平台则采用Hadoop分布式文件系统进行存储，并根据数据采集平台采集的数据得到的统计结果，对数据结构进行了改进。对于社交网络的分析研究主要是提出了一个重叠社区发现算法。传统的社区发现算法大多基于这样一个前提，即每个节点只属于一个社区，而现实中恰恰相反，一个节点可以同时属于不止一个社区。针对在线社交网络中的用户并不仅仅属于一个社区，存在多重性，提出了一个允许社区重叠的社区发现算法，针对在线社交网络的庞大数据量设计基于Hadoop平台的Mapreduce框架的并行化技术，以使对于社区发现算法可以应用于海量数据。海量数据采集和存储系统已经正式投入使用，可以稳定的运行，高效地从新浪微博获取用户数据。重叠社区发现算法在对经典社交网络Karate俱乐部网络和美国大学足球联赛网络进行实验得到了比较满意的结果。

引用

页数：56

共 12 条

[1]

Synchronization on overlapping community network.[J].Jianshe Wu;Xiaohua Wang;Licheng Jiao.Physica A: Statistical Mechanics and its Applications.2011, 3

[2]

MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1

[3]

E-mail as spectroscopy: Automated discovery of community structure within organizations [J].