基于XPath的Web信息抽取的设计与实现

被引：35

作者：

杨文柱

徐林昊

陈少飞

郝亚南

李天柱

机构：

[1] 河北大学数学与计算机学院,河北大学数学与计算机学院,河北大学数学与计算机学院,河北大学数学与计算机学院,河北大学数学与计算机学院保定,保定,保定,保定,保定

来源：

关键词：

XPath; Web信息抽取; 文档对象模型;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

摘要：

提出了一种基于XPath的Web信息抽取方法，鉴于目前还没有免费的商用XPath引擎可用，于是利用DOM定制了一个XPath引擎，实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术，该方法可用于Web查询和包装器的构造，也可用于格式转换。

引用

页码：82 / 83+113 +113

页数：3