基于标签的微博人脉网络挖掘算法和结构分析

被引:2
作者
王莎
张连明
机构
[1] 湖南师范大学物理与信息科学学院
基金
广东省自然科学基金;
关键词
标签; 微博; 人脉网络; 模糊匹配; 数据挖掘; 结构特征;
D O I
暂无
中图分类号
TP393.092 []; TP311.13 [];
学科分类号
080402 ; 1201 ;
摘要
针对互联网微博业务的广泛应用及其对大数据挖掘和分析的影响,提出一种基于标签的微博人脉网络挖掘算法。分析该网络的结构特征,利用微博用户标签,在模糊匹配过程中计算词语之间的匹配度时,主要考虑词语语素、次序和词长3个因素。为弱化以不同用户为起点对算法准确率的影响,分别以普通用户和名人用户为起点用户,挖掘微博人脉网络数据。同时,研究微博人脉网络的结构特性,通过分析发现微博人脉网络同时具有小世界和无标度特性。实验结果表明,运用该算法对名人用户和普通用户朋友中对IT感兴趣的人进行挖掘的误差率是可接受的。其中,挖掘10个名人用户朋友时算法的平均误差率为14.08%,挖掘10个普通用户朋友时算法的平均误差率为10.63%。
引用
收藏
页码:7 / 11
页数:5
相关论文
共 6 条
[1]  
新浪微博的网络舆情分析研究.[D].张岚岚.华东师范大学.2011, 11
[2]   国内微博研究的发展与机遇 [J].
孙晓莹 ;
李大展 ;
王水 .
情报杂志, 2012, 31 (07) :25-33
[3]   新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305
[4]   基于标签的Folksonomy机制研究——以CiteUlike为例 [J].
刘向红 ;
宋文 ;
姚朋 .
图书馆理论与实践, 2010, (05) :29-33
[5]   计算机识别汉语同义词的两种算法比较和测评 [J].
朱毅华 ;
侯汉清 ;
沙印亭 .
中国图书馆学报, 2002, (04) :81-84
[6]  
基于Web挖掘的个性化信息推荐.[M].易明; 著.科学出版社.2010,