[发明专利]一种运动估计方法有效
申请号: | 201110123175.8 | 申请日: | 2011-05-13 |
公开(公告)号: | CN102143365A | 公开(公告)日: | 2011-08-03 |
发明(设计)人: | 王彤;武宇文;张浩佚 | 申请(专利权)人: | 万辉视讯(北京)科技有限公司 |
主分类号: | H04N7/26 | 分类号: | H04N7/26 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100028 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 运动 估计 方法 | ||
技术领域
本发明涉及图像处理领域,具体涉及视频编码的运动估计方法。
背景技术
图形处理器(GPU,Graphic Processing Unit)的处理速度在最近几年得到了快速的发展,其计算能力以每年2.8倍的速度增长,高于CPU(Central Processing Unit,中央处理器)的发展速度。GPU在并行数值处理能力上要远高于CPU。为了合理的利用GPU的通用计算资源,统一计算设备架构(CUDA,Compute Unified Device Architecture)应运而生。CUDA是一种由Nvidia公司(英伟达公司)推出的通用并行计算架构,该架构使GPU能够更有效的解决复杂计算问题。
现有的主流视频压缩算法都是基于运动估计块匹配的,如H.264/AVC、H.263、AVS、VC-1等。其中,H.264/AVC标准是由ITU-T和ISO/IEC联合开发的,定位于覆盖整个视频应用领域,包括低码率的无线应用、标准清晰度和高清晰度的电视广播应用、Internet上的视频流应用,传输高清晰度的DVD视频以及应用于数码相机的高质量视频应用等;H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的;AVS是我国具备自主知识产权的第二代信源编码标准,是《信息技术 先进音视频编码》系列标准的简称,其包括系统、视频、音频、数字版权管理等四个主要技术标准和符合性测试等支撑标准;VC-1是由美国微软公司提出并开发的一种视频编码标准。
在现有的视频编码方法中,大都采用以宏块为单位的运动估计(ME,Motion Estimation)来实现帧间压缩。其主要功能是,对当前帧图像中的一个被编码像素块在参考帧图像中的一个指定窗口中搜索与之相差最小的像素块最为最佳匹配。运动估计中需要得到两个值:一个是运动矢量(MV,Motion Vector),被编码的像素块相对于参考帧中最佳匹配像素块的偏移;另一个是被编码像素块与匹配像素块的残差绝对值之和SAD(Sum of Absolute Difference)。这部分的计算占了整个编码过程计算量的很大比重。
在编码算法中运动估计对编码质量和编码器实现效率有着重要的影响。如H.264编码算法中采用了1/4像素精度的运动估计算法,以提高编码效率。这必然导致编码复杂度的增加。运动估计的计算复杂度占到H.264的编码器计算复杂度的30%以上。考虑到运动估计在视频编码中的重要性,高效的运动估计算法实现成为视频编码器实现中的最关键的部分。
发明内容
本发明所要解决的技术问题是提供一种基于CUDA的高效的运动估计方法,以提升运动估计的运算效率。
本发明解决上述技术问题的技术方案如下:
一种运动估计方法,基于CUDA并行计算架构,包括:
步骤1:利用CUDA流,将图像数据从内存复制到显存;
步骤2:对复制到显存的图像数据进行七种分块模式的SAD计算;
步骤3:对步骤2中得到的七种分块模式的SAD值分别取优。
本发明的有益效果是:采用CUDA并行计算架构,对图像数据进行并行处理,有效的提升了整个运动估计的运算效率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤1中,利用不同的CUDA流从内存向显存复制同一图像数据的不同部分。
采用上述进一步方案的有益效果是,通过利用CUDA流,采用异步操作能够提高数据从内存传输到显存的效率,相对传统非异步复制数据的效率提高了近30%。
进一步,步骤2中,所述七种分块模式分别为4x4、4x8、8x4、8x8、8x16、16x8和16x16,其中,所述4x8、8x4、8x8、8x16、16x8和16x16分块模式SAD值的计算均通过4x4分块模式的SAD值合并而成。
采用上述进一步方案的有益效果是,通过所述4x4分块模式的SAD值合并计算出4x8、8x4、8x8、8x16、16x8和16x16分块模式的SAD值,可以减少过多的计算过程,提高计算效率。
进一步,步骤3中,采用并行归约的方式对每种分块模式的SAD值进行取优。
采用上述进一步方案的有益效果是,采用并行归约进行取优可以提升最优SAD值选取的计算速度,提高计算效率。
附图说明
图1为本发明提供的运动估计方法流程图;
图2为利用多CUDA流将图像数据从CPU内存GPU显存的示意图;
图3为针对运动估计方法的SAD值合并示意图;
图4为最优SAD值选取计算中采用的并行归约方式的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万辉视讯(北京)科技有限公司,未经万辉视讯(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110123175.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于层结合的设备和方法以及多层产品
- 下一篇:一种信道估计方法及装置