[发明专利]SATD快速实现的硬件架构无效
申请号: | 200910106094.X | 申请日: | 2009-03-25 |
公开(公告)号: | CN101583038A | 公开(公告)日: | 2009-11-18 |
发明(设计)人: | 王明江;张爱平;颜琥;商迪 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | H04N7/26 | 分类号: | H04N7/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518055广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | satd 快速 实现 硬件 架构 | ||
技术领域
本发明涉及一种视频编码运动估计中分数像素搜索时所采用变换方法,及该方法硬件实现的体系架构;该方法主要用于估计运动补偿后的残余矩阵的码率。属于信息技术领域。
背景技术
在H.264、AVS视频编码系统中,在进行分数像素运动估计时,需要计算SATD(Sum ofAbsolute Hadamard Transformed Differences)值。SATD计算以4×4的像素块为基本单位处理。在H.264、AVS编码系统中,为了完成块选、帧选等模式选择,需要频繁计算SATD值;而SATD中的Hadamard计算过程包含了大量的加、减运算,使整个SATD的计算量非常大。SATD的计算性能将会直接影响到运动估计的效果。
SATD计算分三步完成。
1、计算残差值。
2、对残差矩阵进行Hadamard变换。Hadamard用于变换降低系数之间的相关性,提高残差矩阵编码比特数估计的准确性。
3、对Hadamard变换后所得到的系数矩阵中的每个元素的绝对值求和。针 对Hadamard变换,在所查阅文献中大都是一个SATD计算单元PU采用4个列像素的并行运算结构,其中包括两个一维的Hadamard变换单元、一个二维的转置矩阵和4个计算残差的运算单元(Processing Element,PE)。这一过程至少需四个时钟周期,对于需大量SATD计算的视频分像素编码来说,代价无疑是巨大的,同时这样的时钟滞留也为后续比较计算制造了瓶颈。
发明内容
本发明为解决大尺寸视频图像运动估计中计算SATD需要大量运算的问题,而提出一种新的硬件并行计算架构,该架构采用四级流水技术,其结构如图1所示。;第一级流水包含一组特殊的wallace阵列,用于在一个时钟周期完成4*4块Hadamard变换矩阵16个元素的所有进位与和值;第二级流水包含16个加法器,同时将第一级输出的16组进位与和值完成相加;第三级包含一个wallace阵列,将第二级的结果取绝对值,并完成相加,最后产生两个输出;第四级包含一个17比特加法器,将第三级产生的两个输出完成相加,加法器初始为最后的SATD值。SATD流水结构每一个时钟周期可以完成一个4*4块的SATD值计算。
附图说明
图1是特殊SATD硬件并行流水计算架构图;
图2是计算矩阵单元d11,d21,d31,d41的第零位硬件结构电路模型图;
图3是计算矩阵单元d11,d21,d31,d41的其它位硬件结构电路模型图;
图4是计算矩阵单元d12,d22,d32,d42的第零位硬件结构电路模型图;
图5是计算矩阵单元d12,d22,d32,d42的其它位硬件结构电路模型图;
图6是计算矩阵单元d13,d23,d33,d43的第零位硬件结构电路模型图;
图7是计算矩阵单元d13,d23,d33,d43的其它位硬件结构电路模型图;
图8是计算矩阵单元d14,d24,d34,d44的第零位硬件结构电路模型图;
图9是计算矩阵单元d14,d24,d34,d44的其它位硬件结构电路模型图。
具体实施方式
本发明详细计算步骤如下:
步骤A1:计算残差矩阵。SATD的计算是基于4*4块进行的,将参考帧4*4块与当前4*4块的象素值相减,得到一个4*4残差矩阵。设残差矩阵为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910106094.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:前驱动轮四轮踏溜车
- 下一篇:一种机顶盒的遥控操作功能界面的装置及方法