基于正则表达式的Web页面信息抽取技术研究

被引：7

作者：

罗粮

朱儒明

机构：

[1] 重庆城市管理职业学院

来源：

现代计算机(专业版) | 2017年 / 15期

关键词：

信息抽取; 正则表达式; 网页信息;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

通过分析网页信息抽取技术和正则表达式相关理论,提出基于正则表达式的Web信息抽取方法,并设计相应的网页信息抽取算法。通过对此算法实现的信息抽取系统进行测试实验表明,所提出的Web页面信息抽取方法能达到较高的召回率和准确率。

引用

页码：17 / 19+38 +38

页数：4

共 6 条

[1]

Web信息抽取方法研究 [J].

韩存鸽 ;

燕敏 .

计算机系统应用, 2009, 18 (07) :172-174+189

[2]

有效HTML文本信息抽取方法的研究 [J].

韩忠明 ;

李文正 ;

莫倩 .

计算机应用研究, 2008, 25 (12) :3568-3571+3574

[3]

HtmIParser提取网页信息的设计与实现 [J].

黄颖 ;

黄治平 .

江西理工大学学报, 2007, (06) :26-28+35

[4]

信息抽取技术在数字图书馆中的应用 [J].

李中言 ;

李普跃 .

现代情报 , 2007, (10) :96-97

[5]

基于网页结构树的Web信息抽取方法 [J].

陈琼 ;

苏文健 .

计算机工程, 2005, (20) :54-55+140

[6]

搜索引擎原理与实践.[M].袁津生; 李群; 蔡岳; 编著.北京邮电大学出版社.2008,

← 1 →