[发明专利]基于神经网络的视频编解码中的外部注意力在审
申请号: | 202210771651.5 | 申请日: | 2022-06-30 |
公开(公告)号: | CN115550646A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 李跃;张凯;张莉 | 申请(专利权)人: | 脸萌有限公司 |
主分类号: | H04N19/117 | 分类号: | H04N19/117;H04N19/82;H04N19/16;H04N19/184;H04N19/70;H04N19/86;G06N3/04;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张亮 |
地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 视频 解码 中的 外部 注意力 | ||
1.一种由视频编解码装置实施的方法,包括:
将神经网络(NN)滤波器应用于视频单元的未经滤波的样点以生成滤波后的样点,其中,所述NN滤波器是基于被配置为基于编解码参数输入而获得注意力的NN滤波器模型的;以及
基于所生成的滤波后的样点来执行视频媒体文件与比特流之间的转换。
2.根据权利要求1所述的方法,其中,所述编解码参数输入包括从包括以下各项的组中选择的一个或多个:对于所述视频单元的分割方案;所述视频单元的预测模式;与所述视频单元相关联的量化参数;以及所述视频单元的边界的边界强度参数。
3.根据权利要求1所述的方法,还包括:
使用所述NN滤波器的卷积层从所述编解码参数输入中提取特征;以及
使用所提取的特征作为所述NN滤波器模型中的注意力。
4.根据权利要求3所述的方法,其中,所述NN滤波器模型的中间特征图将通过所述注意力重新校准,并且其中,所述注意力是通过串接所述编解码参数输入与所述中间特征图来提供串接结果,并且将所述串接结果馈送到所述NN滤波器的卷积层中而获得的。
5.根据权利要求3所述的方法,其中,所述注意力是使用双层卷积神经网络而获得的,并且其中,所述注意力是单通道特征图,所述单通道特征图具有与将通过所述注意力重新校准的所述NN滤波器模型的中间特征图的空域分辨率相同的空域分辨率。
6.根据权利要求3所述的方法,还包括使用所述注意力来重新校准所述NN滤波器模型的中间特征图,其中,所述NN滤波器模型的中间特征图被给出为G,其中G∈RN×W×H,其中,N是通道数量,W是通道宽度,并且H是通道高度,并且其中,所获得的注意力被给出为A,其中A∈RW×H。
7.根据权利要求6所述的方法,其中,φ表示重新校准后的中间特征图,并且其中,应用所述注意力包括:根据φi,j,k=Gi,j,k×Aj,k来提供重新校准后的中间特征图,其中1≤i≤N,其中1≤j≤W,并且其中1≤k≤H。
8.根据权利要求6所述的方法,其中,φ表示重新校准后的中间特征图,并且其中,应用所述注意力包括:根据φi,j,k=Gi,j,k×f(Aj,k)来提供重新校准后的中间特征图,其中1≤i≤N,其中1≤j≤W,其中1≤k≤H,并且其中,f表示应用于所述注意力的每个元素的映射函数。
9.根据权利要求8所述的方法,其中,所述映射函数f包括sigmoid函数或双曲正切函数。
10.根据权利要求8所述的方法,其中,对于所述中间特征图的不同通道使用不同的A或f。
11.根据权利要求6所述的方法,其中,φ表示重新校准后的中间特征图,并且其中,应用所述注意力包括:根据φi,j,k=Gi,j,k×f(Aj,k)+Gi,j,k来提供重新校准后的中间特征图,其中1≤i≤N,其中1≤j≤W,其中1≤k≤H,并且其中,f表示应用于所述注意力的每个元素的映射函数。
12.根据权利要求11所述的方法,其中,所述映射函数f包括sigmoid函数或双曲正切函数。
13.根据权利要求11所述的方法,其中,对于所述中间特征图的不同通道使用不同的A或f。
14.根据权利要求6-13中任一项所述的方法,其中,所述注意力应用于所述NN滤波器模型内部的指定层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于脸萌有限公司,未经脸萌有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210771651.5/1.html,转载请声明来源钻瓜专利网。