互联网金融数据抓取方法研究

被引:13
作者
兰秋军
机构
[1] 湖南大学工商管理学院
关键词
互联网; 数据采集; 金融; 识别标识; 正则表达式;
D O I
10.16208/j.issn1000-7024.2011.05.070
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
介绍了金融数据采集工具软件中用到的数据抓取方法。该方法通过微软公司MSXML组件中的XMLHTTP对象获取网页文本,并将待提取数据文本划分为3个层次:数据块、数据行和数据字段,逐层截取。对每个数据层次给出了7种不同的标识类型,以方便对各层次数据进行标识。为达到灵活和精确提取数据的目的,正则表达式被引入。以新浪网的金融网页为实际案例,阐述了数据抓取过程及结果,并提供了简化的VBA示例程序,结果表明,该方法能有效方便地应用于金融实证研究数据的采集。
引用
收藏
页码:1829 / 1832
页数:4
相关论文
共 5 条
[1]   金融数据库发展与评价 [J].
于丽霞 .
西部金融, 2009, (08) :31-32
[2]   主题网络爬虫研究综述 [J].
刘金红 ;
陆余良 .
计算机应用研究, 2007, (10) :26-29+47
[3]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[4]  
正则表达式必知必会[M]. - 人民邮电出版社 , (美) 福达 (Forta, 2007
[5]  
WebNote .2 http://www.shaoys.com/testart/ShowWebTPL.asp?DocID=Y2004M06D26H16m53s40 . 2010