[发明专利]基于深度强化学习的金融市场最优交易方法在审
申请号: | 201910558312.7 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110322060A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 周水庚;叶泽坤;邓维杰;关佶红 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q40/04;G06N20/00 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 矩阵 交易 金融市场 准确度 高实用性 交易策略 特征提取 梯度算法 综合市场 综合特征 综合信息 大数据 离散化 鲁棒性 四通道 多层 卷积 向量 拼接 确定性 期货 抽象 定价 输出 股票 挖掘 奖励 收益 证券 金融 网络 研究 | ||
1.一种基于深度强化学习的金融市场最优交易方法,记为DDPG;关于最优交易策略问题的数学表示,具体为:
整个交易过程基于限价指令簿机制;每次交易,交易者需要确定自己想要交易的量和价,这里,交易是指或买或卖;称卖方为ask side,称买方为bid side,限价指令是指价和量都预先被确定的订单,某一方的订单可以被执行仅当匹配到另外一方已经提交的订单或者新到达的订单;市场指令是指交易者只需预先确定要交易的量,价格则自动匹配另外一方中最优价格,即如果是买方,自动匹配卖方中的最高价;如果是卖方,自动匹配买方中的最低价;
考虑一个持续H分钟的交易,称之为一个episode,在这个episode内要卖出V股的股票;首先,将H分钟等分成L个时间槽;在第i个时间槽的开始,交易者确定要交易的量和对应每股的单价后,提交限价指令;在第i个时间槽结束时候,假设交易者成交了hi股,获得总量为ri的交易额;在L个时间槽过后,也就是当前episode结束时,如果V股还未全部卖出,则将剩余的量提交一个市场指令,假设市场指令完成rf的成交额;那么整个episode的总成交额为OTE问题的目标就是最大化总的成交额;
其特征在于,采用off-policy的方式学习Q函数的同时学习策略;采用表演者评论者网络架构,其中,表演者负责与环境交互,在线获得当前状态、采取的动作、从环境获得的奖励以及下一个状态,形成四元组存入一个经验缓冲区中;训练时,每次从经验缓冲区中取出一批元组数据来训练表演者和评论者网络;
总框架包含四个网络:表演者评估网络(AEN)、评论者评估网络(CEN)、表演者目标网络(ATN)和评论者目标网络(CTN);表演者网络以状态作为输入,经过特征提取模块,输出它目前认为的“最佳”动作,评论者网络以状态和动作作为输入,输出它目前认为的该状态下执行当前动作的“价值”;表演者评估网络和评论者评估网络对应的目标网络结构完全相同;
表演者评估网络:输入状态信息,经特征提取模块(FEN),特征提取模块输出抽象的特征,然后将抽象特征输入到一个全连接层(FC),最后经过两层softmax层,输出动作;这里采用两层softmax来模拟“离散化”的效果;
评论者评估网络:输入包括状态和动作,同样地,状态先经过FEN,FEN输出抽象的特征,动作先经过第一层全连接层,然后将两者的输出作加和,最后再经过一次全连接层,输出Q值;这里;评论者网络的特征提取模块和表演者网络的特征提取模块内部结构完全相同,但是两者完全独立;
表演者目标网络和评论者目标网络都是不可训的,各自通过指数加权平均法被对应的评估网络“软更新”;这意味着目标网络每次只缓慢地改变;
将历史信息和当前时间点综合市场信息组合作为状态;状态包括两个部分,第一部分是一个三维的数字矩阵,形状为(c,k,w),其中,c=4表示通道数,4个通道分别对应ask的价、ask的量、bid的价、bid的量的滑动历史窗口数据;k和w分别表示滑动窗口的高和宽,设置k=5,表示使用前5的价和量,包括ask和bid,ask根据价格降序,bid根据价格升序;w=10表示滑动窗口的大小,表示从当前点t开始往前,t-1,...,t-9;称该数字矩阵为价/量矩阵;第二部分是一个包含市场具体综合信息的向量,具体包括:当前时间点即第几个时间槽、剩余未交易的量(RV)、当前的mid-price(MP)、平均成交价(AP)、上个时间槽开始提交的价格(LAP)以及在order book上排名(LR);利用PV tensor来捕捉市场随时间变化的特征、量与价之间的特征价/量顺序特征,向量则提供当前市场的综合信息;通过利用每个通道中对应top-1的价和量分别作归一化,以利于算法的收敛;
将动作定义为每次提交限价指令时确定的单价,并把剩余所有的量投入,这里可以把之前未完成的限价指令撤回,并提交新的价和量的限价指令;其中的价格基于由于单价的最小基准为0.01,将动作以为基准,离散化为-0.05,…-0.01,0,0.01,…,0.05,即Action=a对应价格ask1+a;如果a是负数,意味着将定价穿过mid-price,偏向买家,容易成交,但是收益少;反之,一个正数的a意味着高收益的同时成交概率降低;
由于市场是动态变化的,不同时期价格、成交额完全不同,如果每次只单纯地把成交额作为奖励,算法将很难收敛;基于此,将奖励函数定义如下:
rewardt=rt-ht*MP0
其中,MP0是表示在整个episode之初的mid-price,作为一个基准单价,在一个时间槽t结束之时,总共卖ht股股票,完成成交额rt,奖惩函数就是完成的实际成交额与以基准单价卖出完成量的差值;由于,在t个时间槽之后,对未完成的量需要提交一个市场指令,设未完成量为hf,则有最后,一个episode的总的reward,标记为Implementation Reward(IR);将每股平均的reward标记为averaged IR(AIR);根据以上定义,有:
AIR=IR/V;
所述特征抽取网络(FEN)包括两个分支结构,分别对应两个独立的输入;
FEN中一个分支结构包括三层卷积层,以状态的价/量矩阵部分作为输入;第一层卷积采用两个3×3的滤波,得到2个相应的特征映射,用于提取出ask与bid之间、量与价之间以及随时间变化的特征;第二层卷积采用32个1×8的滤波器,得到32个特征映射,用于得到更加多样性、更加抽象的特征;第三层卷积采用1×1的滤波器,用于压缩通道,凝聚特征;
FEN中另外一个分支结构包括两个全连接层,以状态的向量信息部分作为输入;两个全连接层用于提取出市场综合信息的抽象特征;
最后,两个分支通过拼接得到一个向量;最后一层全连接层,用于是揉和两个分支的抽象特征,得到综合的抽象特征;最终输出整个状态综合的抽象特征向量。
2.根据权利要求1所述的基于深度强化学习的金融市场最优交易方法,其特征在于,建立目标函数,进行网络训练,具体流程为:
将表演者评估网络表示为μ(s|θμ),评论者评估网络表示为Q(s,a|θQ),表演者目标网络表示为μ′(s|θμ′),评论者目标网络表示为Q′(s,a|θQ′);其中,θμ、θQ、θμ′和θQ′是对应网络的参数;
训练表演者评估网络的所用的目标函数为:
J(θμ)=max(Eπ[Q(st,μ(st|θμ)|θQ)])
目标函数以状态作为表演者评估网络的输入,输出相应的动作,然后将状态和动作输入到评论者评估网络,最后输出Q值;通过最大化Q值来训练表演者评估网络,在此同时,将评论者评估网络的参数固定;
训练评论者评估网络所用的目标函数为:
其中,yt=rewardt+γQ′(st+1,μ′(st+1|θμ′)|θQ′);
该目标函数以在t时刻的状态和动作作为评论者评估网络输入,得到在t时刻对应的Q值;与此同时,将下一个状态st+1输入到表演者目标网络,得到下一个对应动作,最后将下一个时刻状态和下一个时刻动作输入到评论者目标网络,得到下一个状态和动作对应的Q值;其中的γ表示对奖惩的折扣因子,rewardf是在时间槽t结束时获得奖励值,式子中的差被称为TD error;通过最小化TD error的平方来训练评论者评估网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910558312.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理