基于XPath的Web信息抽取的设计与实现

被引:35
作者
杨文柱
徐林昊
陈少飞
郝亚南
李天柱
机构
[1] 河北大学数学与计算机学院,河北大学数学与计算机学院,河北大学数学与计算机学院,河北大学数学与计算机学院,河北大学数学与计算机学院保定,保定,保定,保定,保定
关键词
XPath; Web信息抽取; 文档对象模型;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
提出了一种基于XPath的Web信息抽取方法,鉴于目前还没有免费的商用XPath引擎可用,于是利用DOM定制了一个XPath引擎,实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术,该方法可用于Web查询和包装器的构造,也可用于格式转换。
引用
收藏
页码:82 / 83+113 +113
页数:3
相关论文
共 1 条
[1]
Wrapping web data into XML.[J].Wei Han;David Buttler;Calton Pu.ACM SIGMOD Record.2001, 3