[发明专利]一种基于云计算技术的股票数据采集和存储方法和系统有效
申请号: | 201210327443.2 | 申请日: | 2012-09-06 |
公开(公告)号: | CN102917009A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 李成华;江小平;张华;余良;李凡 | 申请(专利权)人: | 中南民族大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 技术 股票 数据 采集 存储 方法 系统 | ||
技术领域
本发明属于网络应用技术领域,更具体地,涉及一种基于云计算技术的股票数据采集和存储方法和系统。
背景技术
证劵交易日产生的股票数据的特征主要表现为实时性和大规模。目前,沪深两市在交易日每支股票每5秒会产生一条更新数据,每天数据增长容量在1.5-2GB之间。据2011年相关统计数据,在国内沪深交易所上市交易股票数1800支左右,香港交易所6700左右,国外仅以美国纳斯达克证券市场为例上市交易股票数5800支左右。若把基金和债劵考虑在内则某时刻同时产生的数据量更多。随着时间的积累,股票数据规模非常可观,且与一般日志数据不同的是,这些数据在金融工程领域有较高的分析价值,金融投资研究机构需要经常对历史和实时数据进行挖掘创新。处理高频且大规模的股票数据是一个大型的工程问题,包括数据如何去存储,到这些数据如何建模、计算,到最后形成高效的数据组织之后如何应用这些数据。
一般的数据库系统无法满足如此大规模和实时性,灵活性的要求。单独使用关系型数据库实现方法存在开发复杂、实时性差、管理困难、数据结构灵活性差等问题。若采用Oracle Timesten解决方案,存在软硬件成本昂贵、横向扩展难度较大以及需要有使用经验的技术员工等问题。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于云计算技术的股票数据采集和存储方法,其开发简单、实现大规模股票数据的快速采集、股票数据高效组织、数据结构扩展性好。
为实现上述目的,本发明提供了一种基于云计算技术的股票数据采集和存储方法,包括以下步骤:
(1)获取多个股票代码,并为该股票代码生成对应的URL列表文件,
(2)设置云计算平台的Hadoop分布式文件系统的分片大小,
(3)将URL列表文件存储在Hadoop分布式文件系统上,
(4)接收用户提交的股票数据采集请求,根据文件分片的个数将股票数据采集请求分解为相应个数的Map任务,并将分解后的Map任务指派给相应分片所在的从服务器执行,
(5)根据分解后的Map任务从服务器向远程股票数据服务器发出Http数据请求,并且远程股票数据服务器返回股票数据,从而实现股票数据的并行采集,
(6)根据分解后的Map任务对股票数据进行解析,解析功能函数程序的编制遵循远程股票服务器对股票数据的结构描述,
(7)根据分解后的Map任务将解析后的股票数据存储在从服务器上的分布式数据库HBase中。
步骤(1)中URL列表文件是按行组织的文本形式的文件,每一行为一个URL链接,且每个URL链接含有190支股票代码。
步骤(4)具体为,采集工作是遵循Hadoop分布式并行编程MapReduce模型开发出来的应用程序,其中包含一个Map任务功能函数,所述函数中实现了股票数据采集、解析和存储功能。
步骤(6)具体为,首先以回车符作为特征将含有股票数据的StockData值分割成190个数据对象,保存在TempResult数组中,然后依次取出TempResult数组中的每一个元素,使用String对象的Split方法,利用双引号符号特征将信息内容分割成二个部分,其中第一部分包含了股票代码ID,第二部分中包含了有用的股票数据信息,先取出第二部分内容,再按逗号分割成32份,保存在数组Result中。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
1、开发简单:因为步骤(4)中采用了开源云计算Hadoop系统提供的提供的MapReduce分布式计算编程模型,开发人员只需写较少的代码就可以完成复杂的分布式应用程序的开发。
2、实时性强:因为在步骤(4)、步骤(5)和步骤(6)中编写了MapReduce模型的计算任务,将股票数据的采集、解析和存储等较重的计算任务分解成若干小计算任务分配到多台服务器上并行执行完成,所以,本方法具有较高计算效率,能实现股票数据的快速采集和存储。
3、股票数据的高效组织:因为在步骤(7)中结合股票数据处理应用的需求特征设计了基于分布式数据库HBase技术的股票数据存储结构,便于各种应用服务的开发,如查询服务、统计应用或者如进行股票变化规律聚类等数据挖掘高级应用,实现结构良好的股票历史数据存储中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210327443.2/2.html,转载请声明来源钻瓜专利网。