[发明专利]基于Transformer模型的图像处理方法与装置在审

申请号：	202111232630.8	申请日：	2021-10-22
公开（公告）号：	CN114067009A	公开（公告）日：	2022-02-18
发明（设计）人：	徐明;何潇;刘强	申请（专利权）人：	深圳力维智联技术有限公司
主分类号：	G06T9/00	分类号：	G06T9/00
代理公司：	深圳鼎合诚知识产权代理有限公司 44281	代理人：	刘维佳;彭家恩
地址：	518000 广东省深圳市南山区粤海街道高新***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 transformer 模型图像处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于Transformer模型的图像处理方法与装置。该方法包括：获取JPEG图像数据；对JPEG图像数据进行熵解码和反量化处理，得到JPEG图像数据对应的频域信息；根据JPEG图像数据对应的频域信息构建符合Transformer模型输入要求的输入序列；将输入序列输入Transformer模型，用于对Transformer模型进行训练和/或推理。通过对JPEG图像数据进行部分解码，有效缩短了图像解码时间，从而可以缩短Transformer模型训练或者推理的耗时，提高效率。

技术领域

本发明实施例涉及图像处理技术领域，具体涉及一种基于Transformer模型的图像处理方法与装置。

背景技术

随着图像传感器与显示技术的发展，从高清到4K、8K的超高清，图像的分辨率越来越高，数据量也越来越大。基于传统的卷积神经网络模型或者循环神经网络模型进行图像处理时，若直接将高分辨率的原始图像数据输入模型，将由于有限的计算资源无法加载超大的数据量而导致图像处理过程无法正常进行；若对原始图像数据进行下采样，虽然可以减少数据量，但是会丧失图像细节特征，将失去提高图像分辨率的意义。可见传统神经网络模型已经不能满足高分辨率图像的处理需求，因此以序列作为输入数据的Transformer模型被引入计算机视觉领域用于进行图像处理。

联合图像专家组(Joint Photographic Experts Group，JPEG)是用于连续色调静态图像压缩的一种标准，以其对静态图像压缩的优良品质获得了广泛应用。目前基于Transformer模型对JPEG图像进行处理时，需要将以JPEG格式存储的图像数据完全解码到像素域再进行处理，而该解码过程耗时较长，这将导致Transformer模型在训练与推理时耗时长、效率低的问题。

发明内容

本发明实施例提供一种基于Transformer模型的图像处理方法与装置，用以解决现有基于Transformer模型的图像处理方法中Transformer模型在训练与推理时耗时长、效率低的问题。

第一方面，本发明实施例提供一种基于Transformer模型的图像处理方法，包括：

获取JPEG图像数据；

对JPEG图像数据进行熵解码和反量化处理，得到JPEG图像数据对应的频域信息，频域信息包括Y分量、U分量和V分量的离散余弦变换(Discrete Cosine Transform，DCT)系数；

根据JPEG图像数据对应的频域信息构建符合Transformer模型输入要求的输入序列，Transformer模型基于注意力机制构建；

将输入序列输入Transformer模型，用于对Transformer模型进行训练和/或推理。

一种实施例中，根据JPEG图像数据对应的频域信息构建符合Transformer模型输入要求的输入序列，包括：

从JPEG图像数据对应的频域信息中获取各个最小编码单元对应的频域信息；

将最小编码单元对应的频域信息按照Y分量、U分量和V分量顺序展开形成最小编码单元对应的频域特征向量；

根据最小编码单元在JPEG图像数据中所处的位置生成最小编码单元对应的位置特征向量，位置特征向量与频域特征向量的维数相同；

将各个最小编码单元对应的频域特征向量和位置特征向量进行融合，并按照第一预设顺序进行排列，形成符合Transformer模型输入要求的输入序列。

一种实施例中，最小编码单元的大小为16×16，最小编码单元对应的频域信息包括Y分量上4个数据单元的频域信息、U分量上1个数据单元的频域信息和V分量上1个数据单元的频域信息，数据单元的大小为8×8，将最小编码单元对应的频域信息按照Y分量、U分量和V分量顺序展开形成最小编码单元对应的384维频域特征向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳力维智联技术有限公司，未经深圳力维智联技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111232630.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种电动磨盘瓦吊具
下一篇：地铁工程车电器柜火灾自动监测及灭火装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T9-00 图像编码，如从位像到非位像
G06T9-20 .轮廓编码，如使用边缘检测
G06T9-40 .树编码，如正交树，八叉树

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Transformer模型的图像处理方法与装置在审

专利文献下载