基于正则表达式的Web页面信息抽取技术研究

被引:7
作者
罗粮
朱儒明
机构
[1] 重庆城市管理职业学院
关键词
信息抽取; 正则表达式; 网页信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
通过分析网页信息抽取技术和正则表达式相关理论,提出基于正则表达式的Web信息抽取方法,并设计相应的网页信息抽取算法。通过对此算法实现的信息抽取系统进行测试实验表明,所提出的Web页面信息抽取方法能达到较高的召回率和准确率。
引用
收藏
页码:17 / 19+38 +38
页数:4
相关论文
共 6 条
[1]
Web信息抽取方法研究 [J].
韩存鸽 ;
燕敏 .
计算机系统应用, 2009, 18 (07) :172-174+189
[2]
有效HTML文本信息抽取方法的研究 [J].
韩忠明 ;
李文正 ;
莫倩 .
计算机应用研究, 2008, 25 (12) :3568-3571+3574
[3]
HtmIParser提取网页信息的设计与实现 [J].
黄颖 ;
黄治平 .
江西理工大学学报, 2007, (06) :26-28+35
[4]
信息抽取技术在数字图书馆中的应用 [J].
李中言 ;
李普跃 .
现代情报 , 2007, (10) :96-97
[5]
基于网页结构树的Web信息抽取方法 [J].
陈琼 ;
苏文健 .
计算机工程, 2005, (20) :54-55+140
[6]
搜索引擎原理与实践.[M].袁津生; 李群; 蔡岳; 编著.北京邮电大学出版社.2008,