[发明专利]一种基于视觉转换器的深度强化学习方法及装置在审
申请号: | 202110393996.7 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113052257A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 金丹;王昭;龙玉婧 | 申请(专利权)人: | 中国电子科技集团公司信息科学研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 转换器 深度 强化 学习方法 装置 | ||
1.一种基于视觉转换器的深度强化学习方法,其特征在于,所述方法包括:
构建基于视觉转换器的深度强化学习网络结构,其中,所述视觉转换器包括多层感知器和转换编码器,所述转换编码器包括多头注意力层和前馈网络;
初始化所述深度强化学习网络的权重,根据存储器的容量大小构建经验回放池;
通过贪婪策略与运行环境进行交互,产生经验数据并将其放入所述经验回放池;
当所述经验回放池中的样本数量满足预设的训练样本数量时,从所述经验回放池中随机抽取一批训练样本图像,对所述训练样本图像进行预处理;
将所述预处理后的训练样本图像输入所述深度强化学习网络进行训练;
在所述深度强化学习网络满足收敛条件时,获取强化学习模型。
2.根据权利要求1所述的方法,其特征在于,所述通过贪婪策略与运行环境进行交互,产生经验数据并将其放入所述经验回放池,包括:
通过ε-greedy策略与运行环境进行交互,获取经验数据(s,a,r,s′)并将其放入所述经验回放池,其中,s为当前时刻的观测量,a为当前时刻动作,r为环境返回的回报,s'为下一时刻的观测量。
3.根据权利要求2所述的方法,其特征在于,所述当所述经验回放池中的样本数量满足预设的训练样本数量时,从所述经验回放池中随机抽取一批训练样本图像,对所述训练样本图像进行预处理,包括:
当所述经验回放池中的样本数量满足预设的训练样本数量m时,从所述经验回放池中随机抽取数量为batch大小的训练样本图像,对尺寸大小为H*W的训练样本图像进行预处理,根据所述训练样本图像的大小将其分成N个色块,每个色块的尺寸大小为P*P,其中,H为所述训练样本图像的高度,W为所述训练样本图像的宽度,N=H*W/P2;
使用线性投影矩阵将输入的t-2时刻、t-1时刻、t时刻图像中的每个色块X进行平化,得到映射后的D维向量X1=Embedding(X),并向其添加位置嵌入PositionEncoding和时序嵌入SequenceEncoding,以得到色块向量X2=X1+PositionEncoding+SequenceEncoding;
将状态动作价值占位符QvalueToken通过学习参数的方式与所述色块向量X2进行拼接,得到X3=Concat(X2,QvalueToken),之后将处理后的数据输入所述视觉转换器,通过所述视觉转换器输出动作状态值Xoutput,其中,
Xoutput=MLP(Xhidden),
Xhidden=LayerNorm(Xattention+FeedForward(Xattention)),
Xattention=LayerNorm(X3+SelfAttention(X3WQ,X3WK,X3WV)),
其中,MLP为多层感知器,Xhidden为转换编码器的输出,FeedForward为由两层线性映射和激活函数组成的前馈网络,Xattention为多头注意力层的输出,SelfAttention为自注意力层,WQ、WK、WV分别为线性映射的网络权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110393996.7/1.html,转载请声明来源钻瓜专利网。