应用正则式抽取Google网页内容

被引：6

作者：

张健

欧红

机构：

[1] 长沙理工大学图书馆,湖南图书馆长沙,长沙

来源：

关键词：

正则式; 抽取; 网页; Google;

D O I：

暂无

中图分类号：

G354 [情报检索];

学科分类号：

1205 ;

摘要：

正确、完整地抽取搜索网页的内容,是对检索到的信息进行处理的基本前提。本文分析了Google网页的结构特征,给出了一组匹配Google网页内容的正则式,并用V isual C#实现了一个内容抽取器。对多个Google网页的实际应用表明,本文提出的正则式匹配方法可以抽取Google网页的全部主要内容。

引用

页码：50 / 53

页数：4

共 6 条

[1] 基于DOM的Web信息自动抽取 [J].

吴伟 ;

刘友华 .

[2] Web信息集成技术研究 [J].

孟小峰 .

[3] CW IWSK——从半结构化中抽取信息的归纳规则方法 [J].

黄红华 ;

俞勇 .

[4]

一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04

[5]

C#技术揭秘.[M].(美)TomArcher;(美)AndrewWhitechapel著;马朝晖等译;.机械工业出版社.2003,

[6]

C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,