互联网金融数据抓取方法研究

被引：13

作者：

兰秋军

机构：

[1] 湖南大学工商管理学院

来源：

计算机工程与设计 | 2011年 / 32卷 / 05期

关键词：

互联网; 数据采集; 金融; 识别标识; 正则表达式;

D O I：

10.16208/j.issn1000-7024.2011.05.070

中图分类号：

TP393.09 [];

学科分类号：

080402 ;

摘要：

介绍了金融数据采集工具软件中用到的数据抓取方法。该方法通过微软公司MSXML组件中的XMLHTTP对象获取网页文本,并将待提取数据文本划分为3个层次:数据块、数据行和数据字段,逐层截取。对每个数据层次给出了7种不同的标识类型,以方便对各层次数据进行标识。为达到灵活和精确提取数据的目的,正则表达式被引入。以新浪网的金融网页为实际案例,阐述了数据抓取过程及结果,并提供了简化的VBA示例程序,结果表明,该方法能有效方便地应用于金融实证研究数据的采集。

引用

页码：1829 / 1832

页数：4