学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
正则表达式的Web数据提取研究
被引:4
作者
:
论文数:
引用数:
h-index:
机构:
刘松业
机构
:
[1]
华东师范大学信息学院
来源
:
电脑编程技巧与维护
|
2008年
/ 16期
关键词
:
数据提取;
算法;
正则表达式;
半结构化数据;
D O I
:
10.16184/j.cnki.comprg.2008.16.016
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Internet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。
引用
收藏
页码:89 / 91
页数:3
相关论文
共 3 条
[1]
正则表达式在网络教学系统中的应用
杨树林
论文数:
0
引用数:
0
h-index:
0
机构:
北京印刷学院计算机科学与技术系
杨树林
[J].
北京印刷学院学报,
2005,
(04)
: 18
-
21
[2]
C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,
[3]
数据结构教程.[M].蔡子经;施伯乐 编著.复旦大学出版社.1994,
←
1
→
共 3 条
[1]
正则表达式在网络教学系统中的应用
杨树林
论文数:
0
引用数:
0
h-index:
0
机构:
北京印刷学院计算机科学与技术系
杨树林
[J].
北京印刷学院学报,
2005,
(04)
: 18
-
21
[2]
C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,
[3]
数据结构教程.[M].蔡子经;施伯乐 编著.复旦大学出版社.1994,
←
1
→