应用正则式抽取Google网页内容

被引:6
作者
张健
欧红
机构
[1] 长沙理工大学图书馆,湖南图书馆长沙,长沙
关键词
正则式; 抽取; 网页; Google;
D O I
暂无
中图分类号
G354 [情报检索];
学科分类号
1205 ;
摘要
正确、完整地抽取搜索网页的内容,是对检索到的信息进行处理的基本前提。本文分析了Google网页的结构特征,给出了一组匹配Google网页内容的正则式,并用V isual C#实现了一个内容抽取器。对多个Google网页的实际应用表明,本文提出的正则式匹配方法可以抽取Google网页的全部主要内容。
引用
收藏
页码:50 / 53
页数:4
相关论文
共 6 条
[1]   基于DOM的Web信息自动抽取 [J].
吴伟 ;
刘友华 .
现代图书情报技术, 2004, (02) :68-71
[2]   Web信息集成技术研究 [J].
孟小峰 .
计算机应用与软件, 2003, (11) :32-36+63
[3]   CW IWSK——从半结构化中抽取信息的归纳规则方法 [J].
黄红华 ;
俞勇 .
上海交通大学学报, 2003, (03) :424-427
[4]  
一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04
[5]  
C#技术揭秘.[M].(美)TomArcher;(美)AndrewWhitechapel著;马朝晖等译;.机械工业出版社.2003,
[6]  
C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,