[发明专利]一种基于深度编解码对偶模型的复杂视觉图像重构方法有效
申请号: | 201810233579.4 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108573512B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 陈华富;黄伟;王冲;颜红梅;杨晓青;杨天;刘秩铭 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06T9/00 | 分类号: | G06T9/00 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 解码 对偶 模型 复杂 视觉 图像 方法 | ||
1.一种基于深度编解码对偶模型的复杂视觉图像重构方法,该方法为采用训练数据对编码器G1;解码器G2;判别图像器D1;判别视觉区响应器D2进行训练;
P1.所述编码器G1的作用为将刺激图像转换为视觉区响应信号,编码器G1的编码方法为:
步骤1.1:对刺激图像进行补零操作;对补零后的数据一次进行三次运算,每次运算包含卷积、批量标准化、修正线性单元非线性函数三种操作;
步骤1.2:将步骤1.1得到的数据进行9次残差操作,每次残差操作不改变数据的大小和厚度;
步骤1.3:将步骤1.2得到的数据依次进行5次运算,每次运算包含卷积、批量标准化、修正线性单元非线性函数三种操作;然后进行reshape操作调整数据的维度,最后使用全链接网络得到与视觉区域信号维度相同的数据;
P2.所述解码器G2的作用为将视觉区响应信号转换为刺激图像,解码器G2的解码方法为:
步骤2.1:对视觉区信号数据进行全连接操作,然后进行reshape操作,修改数据维度,再进行五次运算,每次运算包含卷积、批量标准化、修正线性单元非线性函数三种操作;步骤2.2:将步骤2.1得到的数据进行9次残差操作;每次残差操作不改变数据的大小和厚度;
步骤2.3:将步骤2.2得到的数据进行2次运算,每一次运算包含反卷积、批量标准化、修正线性单元非线性函数三种操作;然后进行补零操作;最后依次进行一次卷积、批量标准化、修正线性单元非线性函数三种操作,得到数据认定为刺激图像;
P3.所述判别图像器D1的判别方法为:
对样本图像依次进行五次运算,每次运算包含卷积、批量标准化、弱修正线性单元非线性函数三种操作;
P4.所述判别视觉区响应器D2的判别方法为:
对视觉区响应信号进行全连接,然后对该数据进行reshape操作改变数据维度,然后依次进行五次运算,每次运算包含卷积、批量标准化、弱修正线性单元非线性函数三种操作;五次运算中卷积操作的卷积核大小都为3*3;卷积步长分别为2、1、1、1、1;卷积核深度分别为64、128、256、512、1;
P5.该训练方法为:
步骤5.1:获取训练数据,训练数据包括刺激图像和每张刺激图像诱发下的多个时间节点的视觉区响应信号;
步骤5.2:定义3个损失函数,分别为生成总损失L1、判别图像损失L2、判别视觉区响应损失L3,如下:
L1=y*log[G1(x)]+(1-y)*log[1-G1(x)]+x*log[G2(y)]+(1-x)*log[1-G2(y)]+‖G2(G1(x))-x‖1+‖G1(G2(y))-y‖1+‖D1(G2(y))-1‖2+‖D2(G1(x))-1‖2;
L2=‖D1(G2(y))‖2+‖D1(x)-1‖2;
L3=‖D2(G1(x))‖2+‖D2(y)-1‖2;
其中,x表示刺激图像;y表示视觉区响应信号,G1(x)、G2(y)、D1(G2(y))、D2(G1(x)),分别表示对括号中数据进行相应的处理;
步骤5.3:对L1、L2、L3三个损失函数,依次使用Adam优化算法进行对应的权重更新;先固定判别图像器D1和判别视觉区响应器D2中的权重参数,更新编码器G1和解码器G2中的参数;再固定编码器G1和解码器G2中的参数,更新判别图像器D1和判别视觉区响应器D2中的参数,依次循环进行权重更新;训练得到效果最好的编码器G1;解码器G2;判别图像器D1;判别视觉区响应器D2;
P6.测试阶段:采用训练好的解码器G2解码测试视觉区响应信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810233579.4/1.html,转载请声明来源钻瓜专利网。