[发明专利]一种基于深度强化学习A3C算法的金融交易方法在审
申请号: | 201910104407.1 | 申请日: | 2019-02-01 |
公开(公告)号: | CN109816530A | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 郑子彬;郑万山 | 申请(专利权)人: | 中山大学 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06Q10/06;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模拟交易 全局网络 副本 交易状态 金融交易 强化学习 线程 算法 奖赏 预处理 发送 策略网络 动态适应 更新策略 工作线程 环境变化 交互训练 交易操作 交易策略 历史数据 模型训练 评估网络 输入向量 智能交易 专家知识 初始化 智能体 构建 跳转 采集 引入 重复 更新 交易 | ||
本发明公开了一种基于深度强化学习A3C算法的金融交易方法,所述方法包括:构建模拟交易环境,采集历史分钟数据并预处理,得到待输入向量;初始化A3C模型;工作者线程与模拟交易环境的副本交互,并将待执行的动作发送到模拟交易环境的副本;模拟交易环境的副本接跳转到下一个交易状态,计算奖赏值,将下一交易状态和奖赏值发送至智能交易体;交易智能体分别计算工作者线程的策略网络和评估网络的权值梯度并发送至全局网络;全局网络更新权值,重复工作线程的交互直到A3C模型训练完毕;使用全局网络对待执行的交易操作进行选择。本发明通过市场历史数据不断地交互训练模型,得到稳定的交易策略,避免引入大量的专家知识,动态适应环境变化并更新策略。
技术领域
本发明涉及深度学习领域,更具体地,涉及一种基于深度强化学习A3C算法的金融交易方法。
背景技术
金融交易中的量化投资与传统的定性投资的本质都是基于市场是否有效或者弱有效的理论基础,以此设计可靠的交易模型战胜市场,产生超额收益。量化交易有很多种形式,例如:自动化交易,通过预先编制的程序让计算机自动完成交易的指令,这种方式是将交易员的具体逻辑交易转化成程序的方式,可以更快、更严格的执行;算法交易,具体是通过各类实时以及历史数据等各种类型的数据作为输入,这里输入的可以是,价格、成交量等数据,或者一些基本面和技术面指标,将这些数据输入到事先设计好的算法模型中,该算法模型通过分析历史数据,发现一些可以用来判断趋势等的规律或者特征,最后让算法模型产生交易决策的方式,模型可以是解决一个优化问题,也可以是解决一个预测或者分类问题等等,这几类算法交易普遍的逻辑是,由策略研发员通过对交易市场观察、以及对数据进行一些统计分析与可视化,发现待挖掘的规律,产生基本的交易逻辑思想,最后通过一些机器学习或者统计学习的方法将交易的逻辑思想转变成算法模型,通过对未被训练的交易数据测试,以一定的指标判断交易模型的好坏,从而进一步优化,一直迭代直到达到预期目标,最后将执行的过程交给计算机自动完成,很显然这个过程策略的基本逻辑和交易手法还是由人的主观思想和逻辑决定的,没有突破人的思维,强烈依赖于专家的领域知识,在大数据中无法主动发掘潜在的投资机会。
而近年来,人工智能的研究在图像、视频、游戏、自然语言、围棋等多个领域取得了显著的成果。2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的广泛关注,人工智能进一步被推到了风口浪尖。而其中的深度强化学习算法是AlphaGo的核心,也是通用人工智能的实现关键。异步优势行动者评论家算法(Asynchronous AdvantageActor-Critic),简称A3C,是谷歌公司DeepMind团队在2015年提出的相比DQN更好更通用的一个深度强化学习算法。A3C算法完全使用了Actor-Critic框架,并且引入了异步训练的思想,在提升性能的同时也大大加快了训练速度。A3C算法的基本思想,即Actor-Critic的基本思想,是对输出的动作进行好坏评估,如果动作被认为是好的,那么就调整行动网络(Actor Network)使该动作出现的可能性增加。反之如果动作被认为是坏的,则使该动作出现的可能性减少。通过反复的训练,不断调整行动网络找到最优的动作。基于A3C算法构建稳定可靠的金融交易方法是当前值得研究的问题。
发明内容
本发明为克服上述现有技术中交易方法过度依赖专家的领域知识,无法主动发掘潜在投资机会并输出可靠的交易策略的缺陷,提供一种基于深度强化学习A3C算法的金融交易方法。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
一种基于深度强化学习A3C算法的金融交易方法,所述方法包括以下步骤:
S1:构建模拟交易环境,通过模拟交易环境的数据接口采集金融市场的历史分钟数据,将历史分钟数据进行缺省值处理完毕后,再做归一化处理,得到历史分钟数据指标;同时分别计算按分钟的简单移动平均指标和按分钟的指数移动平均指标,将归一化处理后的历史分钟数据指标和按分钟的简单移动平均指标、按分钟的指数移动平均指标组合得到待输入向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910104407.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数字货币统一交易方法
- 下一篇:基于双链式结构的智能合约交易方法