学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于网页浏览行为的反爬虫研究
被引:4
作者
:
论文数:
引用数:
h-index:
机构:
刘洋
机构
:
[1]
四川大学计算机学院
来源
:
现代计算机(专业版)
|
2019年
/ 07期
关键词
:
网络爬虫;
反爬虫方法;
用户浏览行为;
网站;
D O I
:
暂无
中图分类号
:
TP393.092 [];
TP391.3 [检索机];
学科分类号
:
摘要
:
在大数据的背景下,数据的潜在价值被不断地挖掘出来。能够有效识别或阻挡爬取行为的反爬虫方法对于商业服务网站来说尤为重要。基于网页浏览行为,提出一种新的反爬虫方法。该方法通过对真实用户和网络爬虫浏览网页的行为进行特征提取,然后构造并使用决策树对一个用户是否属于爬虫进行预测。该方法对网络爬虫的敏感性高,并具有较低的假阴率。
引用
收藏
页码:58 / 60+70 +70
页数:4
相关论文
共 6 条
[1]
大数据时代的反爬虫技术
陈利婷
论文数:
0
引用数:
0
h-index:
0
机构:
广东省汕头市经贸职业技术学校
陈利婷
[J].
电脑与信息技术,
2016,
24
(06)
: 60
-
61
[2]
通过Filter抵御网页爬虫
刘庆杰
论文数:
0
引用数:
0
h-index:
0
机构:
防灾科技学院信息工程系
刘庆杰
论文数:
引用数:
h-index:
机构:
孙旭光
王小英
论文数:
0
引用数:
0
h-index:
0
机构:
防灾科技学院信息工程系
王小英
[J].
网络安全技术与应用,
2010,
(01)
: 70
-
71
[3]
群体兴趣网的统计特性研究
论文数:
引用数:
h-index:
机构:
张宁
[J].
上海理工大学学报,
2008,
(03)
: 243
-
248
[4]
基于web页信息隐藏的研究与实现
论文数:
引用数:
h-index:
机构:
顾流
万仲保
论文数:
0
引用数:
0
h-index:
0
机构:
华东交通大学信息工程学院
万仲保
石红芹
论文数:
0
引用数:
0
h-index:
0
机构:
华东交通大学信息工程学院
石红芹
[J].
微计算机信息,
2006,
(24)
: 186
-
187+87
[5]
知识发现[M]. 清华大学出版社 , 史忠植, 2010
[6]
2018 Bad Bot Report .2 https://resources.distilnetworks.com/whitepapers/2018-bad-bot-report . 2018
←
1
→
共 6 条
[1]
大数据时代的反爬虫技术
陈利婷
论文数:
0
引用数:
0
h-index:
0
机构:
广东省汕头市经贸职业技术学校
陈利婷
[J].
电脑与信息技术,
2016,
24
(06)
: 60
-
61
[2]
通过Filter抵御网页爬虫
刘庆杰
论文数:
0
引用数:
0
h-index:
0
机构:
防灾科技学院信息工程系
刘庆杰
论文数:
引用数:
h-index:
机构:
孙旭光
王小英
论文数:
0
引用数:
0
h-index:
0
机构:
防灾科技学院信息工程系
王小英
[J].
网络安全技术与应用,
2010,
(01)
: 70
-
71
[3]
群体兴趣网的统计特性研究
论文数:
引用数:
h-index:
机构:
张宁
[J].
上海理工大学学报,
2008,
(03)
: 243
-
248
[4]
基于web页信息隐藏的研究与实现
论文数:
引用数:
h-index:
机构:
顾流
万仲保
论文数:
0
引用数:
0
h-index:
0
机构:
华东交通大学信息工程学院
万仲保
石红芹
论文数:
0
引用数:
0
h-index:
0
机构:
华东交通大学信息工程学院
石红芹
[J].
微计算机信息,
2006,
(24)
: 186
-
187+87
[5]
知识发现[M]. 清华大学出版社 , 史忠植, 2010
[6]
2018 Bad Bot Report .2 https://resources.distilnetworks.com/whitepapers/2018-bad-bot-report . 2018
←
1
→