[发明专利]一种使用Transformer的多层次图像压缩方法有效
申请号: | 202111138182.5 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113709455B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 刘美琴;梁甲名;林春雨;白慧慧;赵耀 | 申请(专利权)人: | 北京交通大学 |
主分类号: | H04N19/103 | 分类号: | H04N19/103;H04N19/20;H04N19/30;H04N19/42 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 邹芳德 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 transformer 多层次 图像 压缩 方法 | ||
1.一种使用Transformer的多层次图像压缩方法,其特征在于,所述的多层次图像压缩方法为以Transformer模块为主,辅之以卷积层神经网络的多层次的图像压缩框架,该框架利用卷积层神经网降低特征图分辨率、提取局部特征的同时兼顾全局特征分布;其中,Transformer模块包括多层编码器组件组件、解码器组件,编码端采用编码器组件,解码端采用解码器组件;解码器拥有交叉注意力机制,该交叉注意力机制将解码器的输入的自注意力特征与编码器的自注意力特征进行联合计算,对压缩压缩框架编码器的编码端学习到的特征充分利用。
2.根据权利要求1所述的一种使用Transformer的多层次图像压缩方法,其特征在于,所述的图像压缩框架的编码端和解码端是对称的分层结构,每一层称之为一个阶段,每个阶段包含一个上下采样模块、一个Transformer模块和必要的特征变形;
每个阶段的上下采样模块通过一个卷积层来实现,分阶段的上下采样有利于适应图像压缩任务输入图像分辨率大而提取特征分辨率小的特点;同时在卷积之后使用GDN/IGDN层对特征进行非线性变换处理,以使特征排列更有利于压缩。
3.根据权利要求1或2所述的一种使用Transformer的多层次图像压缩方法,其特征在于,所述的图像压缩框架包括:
输入图像数据x先经过压缩框架的编码端计算得到图像的潜在特征y,随后超先验模块的编码部分对y进行计算提取出边信息z,z先经过量化再通过超先验模块的解码部分重建出特征与经过掩码处理的y进行拼接,一同输入到上下文预测模块中以预测y的概率分布,概率模型采用由三个子高斯分布组成的混合高斯分布模型;其中,在训练的过程中,对y直接进行量化得到经过压缩框架解码端的计算实现对原图像x的重建;在测试过程中,则是基于对y的概率分布的预测,自回归地重建然后再重建原始图像x。
4.根据权利要求2所述的一种使用Transformer的多层次图像压缩方法,其特征在于,所述的特征变形包括两个操作:维度转变和分块拉长,维度转变适应Transformer在从自然语言处理领域迁移至计算机视觉领域的过程中数据维度的差异,分块拉长解决Transformer中注意力机制的显存占用过高导致内存溢出错误的问题。
5.根据权利要求4所述的一种使用Transformer的多层次图像压缩方法,其特征在于,所述的分块拉长的操作发生在上下采样卷积之后、维度转变之前,由于图像特征图的高和宽的乘积相较于文本序列长度会很大,先分块拉长再转变维度输入到Transformer中有助于大幅度减少注意力机制的显存占用,注意力机制的计算公式如下:
公式中的Q、K、V分别代表查询向量、键向量、值向量,这三个向量是通过输入特征经过三个不同的全连接层产生的,dk为单头注意力维度;注意力机制中显存占用最大的部分是计算Q与K点积得到的注意力矩阵,即公式中的QKT,Q与K的形状与Transformer的输入的形状相同,假定卷积后特征图的形状为(B,H,W,C),如果直接维度转变,形状变为(B,H×W,C)输入到Transformer中,那么QK点积的形状为(B,N,N),N=H×W。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111138182.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音箱包装盒
- 下一篇:一种辐流回转斜板沉淀池
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序