正则表达式的Web数据提取研究

被引:4
作者
刘松业
机构
[1] 华东师范大学信息学院
关键词
数据提取; 算法; 正则表达式; 半结构化数据;
D O I
10.16184/j.cnki.comprg.2008.16.016
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Internet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。
引用
收藏
页码:89 / 91
页数:3
相关论文
共 3 条