学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
求职网站职位列表页链接信息的自动提取
被引:3
作者
:
方宏
论文数:
0
引用数:
0
h-index:
0
机构:
江苏海事职业技术学院信息工程系
江苏海事职业技术学院信息工程系
方宏
[
1
]
论文数:
引用数:
h-index:
机构:
吕太之
[
2
]
机构
:
[1]
江苏海事职业技术学院信息工程系
[2]
南京理工大学计算机科学与技术学院
来源
:
现代图书情报技术
|
2009年
/ Z1期
关键词
:
URL聚类;
列表页;
信息提取;
求职;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
080402 ;
摘要
:
综合运用URL聚类、JavaScript脚本解释等技术,自动识别和提取职位列表页中的职位及翻页链接。实验证明上述技术是行之有效的。
引用
收藏
页码:93 / 96
页数:4
相关论文
共 6 条
[1]
基于ID3分类算法的深度网络爬虫设计
[J].
论文数:
引用数:
h-index:
机构:
王舜燕
;
论文数:
引用数:
h-index:
机构:
李蕾
;
论文数:
引用数:
h-index:
机构:
吴兵华
.
现代图书情报技术,
2008,
(06)
:41
-45
[2]
基于Rhino的JavaScript动态页面解析研究与实现
[J].
金晓鸥
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息安全工程学院
金晓鸥
;
钟宝燕
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息安全工程学院
钟宝燕
;
论文数:
引用数:
h-index:
机构:
李翔
.
计算机技术与发展,
2008,
(02)
:1
-4+50
[3]
Deep Web数据集成研究综述
[J].
论文数:
引用数:
h-index:
机构:
刘伟
;
论文数:
引用数:
h-index:
机构:
孟小峰
;
孟卫一
论文数:
0
引用数:
0
h-index:
0
机构:
纽约州立大学计算机科学系
中国人民大学信息学院
孟卫一
.
计算机学报,
2007,
(09)
:1475
-1489
[4]
基于URL结构和访问时间的Web页面访问相似性度量
[J].
论文数:
引用数:
h-index:
机构:
李超锋
;
卢炎生
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机学院
卢炎生
.
计算机科学,
2007,
(04)
:207
-209+286
[5]
WWW论坛中的动态网页采集
[J].
李魁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李魁
;
论文数:
引用数:
h-index:
机构:
程学旗
;
郭岩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郭岩
;
张凯
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张凯
.
计算机工程,
2007,
(06)
:80
-82
[6]
HtmlUnit. http://htmlunit.sourceforge.net . 2008
←
1
→
共 6 条
[1]
基于ID3分类算法的深度网络爬虫设计
[J].
论文数:
引用数:
h-index:
机构:
王舜燕
;
论文数:
引用数:
h-index:
机构:
李蕾
;
论文数:
引用数:
h-index:
机构:
吴兵华
.
现代图书情报技术,
2008,
(06)
:41
-45
[2]
基于Rhino的JavaScript动态页面解析研究与实现
[J].
金晓鸥
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息安全工程学院
金晓鸥
;
钟宝燕
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息安全工程学院
钟宝燕
;
论文数:
引用数:
h-index:
机构:
李翔
.
计算机技术与发展,
2008,
(02)
:1
-4+50
[3]
Deep Web数据集成研究综述
[J].
论文数:
引用数:
h-index:
机构:
刘伟
;
论文数:
引用数:
h-index:
机构:
孟小峰
;
孟卫一
论文数:
0
引用数:
0
h-index:
0
机构:
纽约州立大学计算机科学系
中国人民大学信息学院
孟卫一
.
计算机学报,
2007,
(09)
:1475
-1489
[4]
基于URL结构和访问时间的Web页面访问相似性度量
[J].
论文数:
引用数:
h-index:
机构:
李超锋
;
卢炎生
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机学院
卢炎生
.
计算机科学,
2007,
(04)
:207
-209+286
[5]
WWW论坛中的动态网页采集
[J].
李魁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李魁
;
论文数:
引用数:
h-index:
机构:
程学旗
;
郭岩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郭岩
;
张凯
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张凯
.
计算机工程,
2007,
(06)
:80
-82
[6]
HtmlUnit. http://htmlunit.sourceforge.net . 2008
←
1
→