学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
中文微博文本采集与预处理综述
被引:34
作者
:
论文数:
引用数:
h-index:
机构:
孔雪娜
[
1
]
论文数:
引用数:
h-index:
机构:
孙红
[
1
,
2
]
机构
:
[1]
上海理工大学光电信息与计算机工程学院
[2]
上海现代光学系统重点实验室
来源
:
软件导刊
|
2017年
/ 16卷
/ 02期
关键词
:
数据挖掘;
网页爬虫;
微博信息采集;
文本预处理;
文本分词;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状。最后对未来微博信息采集及处理的发展方向进行了展望。
引用
收藏
页码:186 / 189
页数:4
相关论文
共 32 条
[1]
基于改进TF-IDF的微博短文本特征词提取算法
[J].
论文数:
引用数:
h-index:
机构:
邓丹君
;
论文数:
引用数:
h-index:
机构:
姚莉
.
软件导刊,
2016,
15
(06)
:48
-50
[2]
一种基于P2P技术的分布式微博爬虫系统
[J].
论文数:
引用数:
h-index:
机构:
卢杨
;
论文数:
引用数:
h-index:
机构:
李华康
;
论文数:
引用数:
h-index:
机构:
孙国梓
.
江苏大学学报(自然科学版),
2016,
37
(03)
:296
-301
[3]
一种基于动态网页解析的微博数据抓取方法
[J].
论文数:
引用数:
h-index:
机构:
钟明翔
;
唐晋韬
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
唐晋韬
;
论文数:
引用数:
h-index:
机构:
谢松县
;
论文数:
引用数:
h-index:
机构:
王挺
.
舰船电子工程,
2015,
35
(10)
:95
-99
[4]
基于Python的新浪微博数据爬虫
[J].
论文数:
引用数:
h-index:
机构:
周中华
;
论文数:
引用数:
h-index:
机构:
张惠然
;
论文数:
引用数:
h-index:
机构:
谢江
.
计算机应用,
2014,
34
(11)
:3131
-3134
[5]
微博数据挖掘研究综述
[J].
丁兆云
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统工程重点实验室
国防科学技术大学计算机学院
国防科学技术大学信息系统与管理学院
丁兆云
;
论文数:
引用数:
h-index:
机构:
贾焰
;
论文数:
引用数:
h-index:
机构:
周斌
.
计算机研究与发展,
2014,
51
(04)
:691
-706
[6]
一种基于模拟登录的微博数据采集方案
[J].
论文数:
引用数:
h-index:
机构:
孙青云
;
王俊峰
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
视觉合成图形图像技术重点实验室
四川大学计算机学院
王俊峰
;
论文数:
引用数:
h-index:
机构:
赵宗渠
;
论文数:
引用数:
h-index:
机构:
高梦超
.
计算机技术与发展,
2014,
24
(03)
:6
-10
[7]
基于隐含语义分析的微博话题发现方法
[J].
论文数:
引用数:
h-index:
机构:
马雯雯
;
论文数:
引用数:
h-index:
机构:
魏文晗
;
论文数:
引用数:
h-index:
机构:
邓一贵
.
计算机工程与应用 ,
2014,
(01)
:96
-100
[8]
一种引入动态词库更新的中文分词架构
[J].
论文数:
引用数:
h-index:
机构:
刘芳芳
;
论文数:
引用数:
h-index:
机构:
王晶
;
论文数:
引用数:
h-index:
机构:
沈奇威
.
计算机系统应用,
2013,
22
(03)
:100
-103+50
[9]
基于MapReduce的微博文本采集平台
[J].
论文数:
引用数:
h-index:
机构:
于留宝
;
论文数:
引用数:
h-index:
机构:
胡长军
;
论文数:
引用数:
h-index:
机构:
苏林晗
.
计算机科学,
2012,
39(S3)
(S3)
:143
-145
[10]
一种分布式微博数据采集平台的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
李龙
;
论文数:
引用数:
h-index:
机构:
李芝棠
;
论文数:
引用数:
h-index:
机构:
涂浩
;
论文数:
引用数:
h-index:
机构:
史春永
.
广西大学学报(自然科学版),
2011,
36(S1)
(自然科学版)
:324
-328
←
1
2
3
4
→
共 32 条
[1]
基于改进TF-IDF的微博短文本特征词提取算法
[J].
论文数:
引用数:
h-index:
机构:
邓丹君
;
论文数:
引用数:
h-index:
机构:
姚莉
.
软件导刊,
2016,
15
(06)
:48
-50
[2]
一种基于P2P技术的分布式微博爬虫系统
[J].
论文数:
引用数:
h-index:
机构:
卢杨
;
论文数:
引用数:
h-index:
机构:
李华康
;
论文数:
引用数:
h-index:
机构:
孙国梓
.
江苏大学学报(自然科学版),
2016,
37
(03)
:296
-301
[3]
一种基于动态网页解析的微博数据抓取方法
[J].
论文数:
引用数:
h-index:
机构:
钟明翔
;
唐晋韬
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
唐晋韬
;
论文数:
引用数:
h-index:
机构:
谢松县
;
论文数:
引用数:
h-index:
机构:
王挺
.
舰船电子工程,
2015,
35
(10)
:95
-99
[4]
基于Python的新浪微博数据爬虫
[J].
论文数:
引用数:
h-index:
机构:
周中华
;
论文数:
引用数:
h-index:
机构:
张惠然
;
论文数:
引用数:
h-index:
机构:
谢江
.
计算机应用,
2014,
34
(11)
:3131
-3134
[5]
微博数据挖掘研究综述
[J].
丁兆云
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统工程重点实验室
国防科学技术大学计算机学院
国防科学技术大学信息系统与管理学院
丁兆云
;
论文数:
引用数:
h-index:
机构:
贾焰
;
论文数:
引用数:
h-index:
机构:
周斌
.
计算机研究与发展,
2014,
51
(04)
:691
-706
[6]
一种基于模拟登录的微博数据采集方案
[J].
论文数:
引用数:
h-index:
机构:
孙青云
;
王俊峰
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
视觉合成图形图像技术重点实验室
四川大学计算机学院
王俊峰
;
论文数:
引用数:
h-index:
机构:
赵宗渠
;
论文数:
引用数:
h-index:
机构:
高梦超
.
计算机技术与发展,
2014,
24
(03)
:6
-10
[7]
基于隐含语义分析的微博话题发现方法
[J].
论文数:
引用数:
h-index:
机构:
马雯雯
;
论文数:
引用数:
h-index:
机构:
魏文晗
;
论文数:
引用数:
h-index:
机构:
邓一贵
.
计算机工程与应用 ,
2014,
(01)
:96
-100
[8]
一种引入动态词库更新的中文分词架构
[J].
论文数:
引用数:
h-index:
机构:
刘芳芳
;
论文数:
引用数:
h-index:
机构:
王晶
;
论文数:
引用数:
h-index:
机构:
沈奇威
.
计算机系统应用,
2013,
22
(03)
:100
-103+50
[9]
基于MapReduce的微博文本采集平台
[J].
论文数:
引用数:
h-index:
机构:
于留宝
;
论文数:
引用数:
h-index:
机构:
胡长军
;
论文数:
引用数:
h-index:
机构:
苏林晗
.
计算机科学,
2012,
39(S3)
(S3)
:143
-145
[10]
一种分布式微博数据采集平台的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
李龙
;
论文数:
引用数:
h-index:
机构:
李芝棠
;
论文数:
引用数:
h-index:
机构:
涂浩
;
论文数:
引用数:
h-index:
机构:
史春永
.
广西大学学报(自然科学版),
2011,
36(S1)
(自然科学版)
:324
-328
←
1
2
3
4
→