[发明专利]基于Transformer模型的图像处理方法与装置在审
申请号: | 202111232630.8 | 申请日: | 2021-10-22 |
公开(公告)号: | CN114067009A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 徐明;何潇;刘强 | 申请(专利权)人: | 深圳力维智联技术有限公司 |
主分类号: | G06T9/00 | 分类号: | G06T9/00 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 刘维佳;彭家恩 |
地址: | 518000 广东省深圳市南山区粤海街道高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 模型 图像 处理 方法 装置 | ||
本发明提供一种基于Transformer模型的图像处理方法与装置。该方法包括:获取JPEG图像数据;对JPEG图像数据进行熵解码和反量化处理,得到JPEG图像数据对应的频域信息;根据JPEG图像数据对应的频域信息构建符合Transformer模型输入要求的输入序列;将输入序列输入Transformer模型,用于对Transformer模型进行训练和/或推理。通过对JPEG图像数据进行部分解码,有效缩短了图像解码时间,从而可以缩短Transformer模型训练或者推理的耗时,提高效率。
技术领域
本发明实施例涉及图像处理技术领域,具体涉及一种基于Transformer模型的图像处理方法与装置。
背景技术
随着图像传感器与显示技术的发展,从高清到4K、8K的超高清,图像的分辨率越来越高,数据量也越来越大。基于传统的卷积神经网络模型或者循环神经网络模型进行图像处理时,若直接将高分辨率的原始图像数据输入模型,将由于有限的计算资源无法加载超大的数据量而导致图像处理过程无法正常进行;若对原始图像数据进行下采样,虽然可以减少数据量,但是会丧失图像细节特征,将失去提高图像分辨率的意义。可见传统神经网络模型已经不能满足高分辨率图像的处理需求,因此以序列作为输入数据的Transformer模型被引入计算机视觉领域用于进行图像处理。
联合图像专家组(Joint Photographic Experts Group,JPEG)是用于连续色调静态图像压缩的一种标准,以其对静态图像压缩的优良品质获得了广泛应用。目前基于Transformer模型对JPEG图像进行处理时,需要将以JPEG格式存储的图像数据完全解码到像素域再进行处理,而该解码过程耗时较长,这将导致Transformer模型在训练与推理时耗时长、效率低的问题。
发明内容
本发明实施例提供一种基于Transformer模型的图像处理方法与装置,用以解决现有基于Transformer模型的图像处理方法中Transformer模型在训练与推理时耗时长、效率低的问题。
第一方面,本发明实施例提供一种基于Transformer模型的图像处理方法,包括:
获取JPEG图像数据;
对JPEG图像数据进行熵解码和反量化处理,得到JPEG图像数据对应的频域信息,频域信息包括Y分量、U分量和V分量的离散余弦变换(Discrete Cosine Transform,DCT)系数;
根据JPEG图像数据对应的频域信息构建符合Transformer模型输入要求的输入序列,Transformer模型基于注意力机制构建;
将输入序列输入Transformer模型,用于对Transformer模型进行训练和/或推理。
一种实施例中,根据JPEG图像数据对应的频域信息构建符合Transformer模型输入要求的输入序列,包括:
从JPEG图像数据对应的频域信息中获取各个最小编码单元对应的频域信息;
将最小编码单元对应的频域信息按照Y分量、U分量和V分量顺序展开形成最小编码单元对应的频域特征向量;
根据最小编码单元在JPEG图像数据中所处的位置生成最小编码单元对应的位置特征向量,位置特征向量与频域特征向量的维数相同;
将各个最小编码单元对应的频域特征向量和位置特征向量进行融合,并按照第一预设顺序进行排列,形成符合Transformer模型输入要求的输入序列。
一种实施例中,最小编码单元的大小为16×16,最小编码单元对应的频域信息包括Y分量上4个数据单元的频域信息、U分量上1个数据单元的频域信息和V分量上1个数据单元的频域信息,数据单元的大小为8×8,将最小编码单元对应的频域信息按照Y分量、U分量和V分量顺序展开形成最小编码单元对应的384维频域特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳力维智联技术有限公司,未经深圳力维智联技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111232630.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电动磨盘瓦吊具
- 下一篇:地铁工程车电器柜火灾自动监测及灭火装置
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序