学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
一种基于动态网页解析的微博数据抓取方法
被引:7
作者
:
论文数:
引用数:
h-index:
机构:
钟明翔
唐晋韬
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
唐晋韬
论文数:
引用数:
h-index:
机构:
谢松县
论文数:
引用数:
h-index:
机构:
王挺
机构
:
[1]
国防科学技术大学计算机学院
来源
:
舰船电子工程
|
2015年
/ 35卷
/ 10期
关键词
:
新浪微博;
数据挖掘;
动态网页;
爬虫;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博页面动态数据,通过模拟登陆,依据社交网站网页链接特点确定页面爬取策略,使用页面解析技术定制页面数据抽取模板,实现以用户为中心的微博数据获取。抓取结果表明,方法能对微博用户数据进行全面高效抓取,为后续数据分析和处理提供数据支持。
引用
收藏
页码:95 / 99
页数:5
相关论文
共 8 条
[1]
垂直搜索引擎中聚焦爬虫技术的研究
[D].
刘丽杰
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学
哈尔滨工程大学
刘丽杰
.
哈尔滨工程大学,
2012
[2]
大尺度在线社会网络结构研究
[D].
论文数:
引用数:
h-index:
机构:
郭正彪
.
华中科技大学,
2012
[3]
微博数据获取技术及展望
[J].
游翔
论文数:
0
引用数:
0
h-index:
0
机构:
武警工程大学信息工程系
游翔
;
葛卫丽
论文数:
0
引用数:
0
h-index:
0
机构:
武警工程大学信息工程系
葛卫丽
.
电子科技,
2014,
(10)
:123
-126+132
[4]
一种基于模拟登录的微博数据采集方案
[J].
论文数:
引用数:
h-index:
机构:
孙青云
;
王俊峰
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
视觉合成图形图像技术重点实验室
四川大学计算机学院
王俊峰
;
论文数:
引用数:
h-index:
机构:
赵宗渠
;
论文数:
引用数:
h-index:
机构:
高梦超
.
计算机技术与发展,
2014,
24
(03)
:6
-10
[5]
基于微博API的分布式抓取技术
[J].
论文数:
引用数:
h-index:
机构:
陈舜华
;
论文数:
引用数:
h-index:
机构:
王晓彤
;
论文数:
引用数:
h-index:
机构:
郝志峰
;
论文数:
引用数:
h-index:
机构:
蔡瑞初
;
肖晓军
论文数:
0
引用数:
0
h-index:
0
机构:
广州优亿信息科技有限公司
广东工业大学计算机学院
肖晓军
;
卢宇
论文数:
0
引用数:
0
h-index:
0
机构:
广州优亿信息科技有限公司
广东工业大学计算机学院
卢宇
.
电信科学,
2013,
29
(08)
:146
-150+155
[6]
基于Selenium的软件自动化测试的研究与应用
[J].
吴伶琳
论文数:
0
引用数:
0
h-index:
0
机构:
健雄职业技术学院软件与服务外包学院
吴伶琳
.
计算机与现代化,
2013,
(02)
:65
-68
[7]
新浪微博数据挖掘方案
[J].
论文数:
引用数:
h-index:
机构:
廉捷
;
周欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
周欣
;
曹伟
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
曹伟
;
论文数:
引用数:
h-index:
机构:
刘云
.
清华大学学报(自然科学版),
2011,
51
(10)
:1300
-1305
[8]
聚焦爬虫技术研究综述
[J].
论文数:
引用数:
h-index:
机构:
周立柱
;
论文数:
引用数:
h-index:
机构:
林玲
.
计算机应用,
2005,
(09)
:1965
-1969
←
1
→
共 8 条
[1]
垂直搜索引擎中聚焦爬虫技术的研究
[D].
刘丽杰
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学
哈尔滨工程大学
刘丽杰
.
哈尔滨工程大学,
2012
[2]
大尺度在线社会网络结构研究
[D].
论文数:
引用数:
h-index:
机构:
郭正彪
.
华中科技大学,
2012
[3]
微博数据获取技术及展望
[J].
游翔
论文数:
0
引用数:
0
h-index:
0
机构:
武警工程大学信息工程系
游翔
;
葛卫丽
论文数:
0
引用数:
0
h-index:
0
机构:
武警工程大学信息工程系
葛卫丽
.
电子科技,
2014,
(10)
:123
-126+132
[4]
一种基于模拟登录的微博数据采集方案
[J].
论文数:
引用数:
h-index:
机构:
孙青云
;
王俊峰
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
视觉合成图形图像技术重点实验室
四川大学计算机学院
王俊峰
;
论文数:
引用数:
h-index:
机构:
赵宗渠
;
论文数:
引用数:
h-index:
机构:
高梦超
.
计算机技术与发展,
2014,
24
(03)
:6
-10
[5]
基于微博API的分布式抓取技术
[J].
论文数:
引用数:
h-index:
机构:
陈舜华
;
论文数:
引用数:
h-index:
机构:
王晓彤
;
论文数:
引用数:
h-index:
机构:
郝志峰
;
论文数:
引用数:
h-index:
机构:
蔡瑞初
;
肖晓军
论文数:
0
引用数:
0
h-index:
0
机构:
广州优亿信息科技有限公司
广东工业大学计算机学院
肖晓军
;
卢宇
论文数:
0
引用数:
0
h-index:
0
机构:
广州优亿信息科技有限公司
广东工业大学计算机学院
卢宇
.
电信科学,
2013,
29
(08)
:146
-150+155
[6]
基于Selenium的软件自动化测试的研究与应用
[J].
吴伶琳
论文数:
0
引用数:
0
h-index:
0
机构:
健雄职业技术学院软件与服务外包学院
吴伶琳
.
计算机与现代化,
2013,
(02)
:65
-68
[7]
新浪微博数据挖掘方案
[J].
论文数:
引用数:
h-index:
机构:
廉捷
;
周欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
周欣
;
曹伟
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
曹伟
;
论文数:
引用数:
h-index:
机构:
刘云
.
清华大学学报(自然科学版),
2011,
51
(10)
:1300
-1305
[8]
聚焦爬虫技术研究综述
[J].
论文数:
引用数:
h-index:
机构:
周立柱
;
论文数:
引用数:
h-index:
机构:
林玲
.
计算机应用,
2005,
(09)
:1965
-1969
←
1
→