学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于正则表达式的Web页面信息抽取技术研究
被引:7
作者
:
罗粮
论文数:
0
引用数:
0
h-index:
0
机构:
重庆城市管理职业学院
罗粮
朱儒明
论文数:
0
引用数:
0
h-index:
0
机构:
重庆城市管理职业学院
朱儒明
机构
:
[1]
重庆城市管理职业学院
来源
:
现代计算机(专业版)
|
2017年
/ 15期
关键词
:
信息抽取;
正则表达式;
网页信息;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
通过分析网页信息抽取技术和正则表达式相关理论,提出基于正则表达式的Web信息抽取方法,并设计相应的网页信息抽取算法。通过对此算法实现的信息抽取系统进行测试实验表明,所提出的Web页面信息抽取方法能达到较高的召回率和准确率。
引用
收藏
页码:17 / 19+38 +38
页数:4
相关论文
共 6 条
[1]
Web信息抽取方法研究
[J].
论文数:
引用数:
h-index:
机构:
韩存鸽
;
论文数:
引用数:
h-index:
机构:
燕敏
.
计算机系统应用,
2009,
18
(07)
:172
-174+189
[2]
有效HTML文本信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
韩忠明
;
论文数:
引用数:
h-index:
机构:
李文正
;
论文数:
引用数:
h-index:
机构:
莫倩
.
计算机应用研究,
2008,
25
(12)
:3568
-3571+3574
[3]
HtmIParser提取网页信息的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
黄颖
;
论文数:
引用数:
h-index:
机构:
黄治平
.
江西理工大学学报,
2007,
(06)
:26
-28+35
[4]
信息抽取技术在数字图书馆中的应用
[J].
论文数:
引用数:
h-index:
机构:
李中言
;
李普跃
论文数:
0
引用数:
0
h-index:
0
机构:
廊坊师范学院
李普跃
.
现代情报 ,
2007,
(10)
:96
-97
[5]
基于网页结构树的Web信息抽取方法
[J].
论文数:
引用数:
h-index:
机构:
陈琼
;
苏文健
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学计算机科学与工程学院,华南理工大学计算机科学与工程学院广州,广州
苏文健
.
计算机工程,
2005,
(20)
:54
-55+140
[6]
搜索引擎原理与实践.[M].袁津生; 李群; 蔡岳; 编著.北京邮电大学出版社.2008,
←
1
→
共 6 条
[1]
Web信息抽取方法研究
[J].
论文数:
引用数:
h-index:
机构:
韩存鸽
;
论文数:
引用数:
h-index:
机构:
燕敏
.
计算机系统应用,
2009,
18
(07)
:172
-174+189
[2]
有效HTML文本信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
韩忠明
;
论文数:
引用数:
h-index:
机构:
李文正
;
论文数:
引用数:
h-index:
机构:
莫倩
.
计算机应用研究,
2008,
25
(12)
:3568
-3571+3574
[3]
HtmIParser提取网页信息的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
黄颖
;
论文数:
引用数:
h-index:
机构:
黄治平
.
江西理工大学学报,
2007,
(06)
:26
-28+35
[4]
信息抽取技术在数字图书馆中的应用
[J].
论文数:
引用数:
h-index:
机构:
李中言
;
李普跃
论文数:
0
引用数:
0
h-index:
0
机构:
廊坊师范学院
李普跃
.
现代情报 ,
2007,
(10)
:96
-97
[5]
基于网页结构树的Web信息抽取方法
[J].
论文数:
引用数:
h-index:
机构:
陈琼
;
苏文健
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学计算机科学与工程学院,华南理工大学计算机科学与工程学院广州,广州
苏文健
.
计算机工程,
2005,
(20)
:54
-55+140
[6]
搜索引擎原理与实践.[M].袁津生; 李群; 蔡岳; 编著.北京邮电大学出版社.2008,
←
1
→