[发明专利]一种基于栈式稀疏自编码器的面向对象编码方法有效
申请号: | 202011102043.2 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112365896B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 胡瑞敏;吴玉林;王晓晨;胡晨昊;李罡;陈玮;柯善发;张灵鲲;刘文可 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L19/008 | 分类号: | G10L19/008;G10L19/02 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 彭艳君 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稀疏 编码器 面向 对象 编码 方法 | ||
1.一种基于栈式稀疏自编码器的面向对象编码方法,其特征是,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达;利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据;
其中,对音频对象边信息进行降维表达具体步骤如下:
步骤11、对输入的J个独立音频信号S1,S2,…,SJ通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱O1,O2,…,OJ;
步骤12、对步骤11得到的频谱O1,O2,…,OJ每帧数据进行精细的子带划分;
步骤13、对步骤12中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤14、对步骤12中的子带,计算每个对象的边信息OLD,得到边信息矩阵G1,G2,…,GJ;
步骤15、将步骤14得到的边信息矩阵G1,G2,…,GJ传入栈式稀疏自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
步骤16、步骤13和步骤15得到的码流合成输出码流,传输到解码端;
其中,从音频对象边信息的低维结构中重构原始高维的边信息数据,具体步骤如下:
步骤21、分解接收到的码流,得到下混信号码流和边信息码流;
步骤22、步骤21得到的下混信号码流经过AAC解码得到下混信号;
步骤23、步骤21得到的边信息码流经过去量化操作得到边信息;
步骤24、将步骤23得到的边信息输入栈式稀疏自编码器的解码器模块中,得到重建后的音频对象边信息
步骤25、根据步骤22得到的下混信号和步骤24得到的对象边信息,得到重建的音频对象频谱
步骤26、根据步骤25得到的音频对象频谱进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号
2.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,步骤11中通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象信号的频谱。
3.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,步骤12中根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量。
4.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,步骤13中将所有对象的频谱信息进行矩阵相加,得到下混信号数据,并作为传输码流进行传输;
下混信号的计算如下式所示:
其中sign()为符号函数,用于获取变量的符号。
5.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤14中,所述边信息矩阵的计算方式如下,
其中Pj(i,b)和Pmax(i,b)分别表示对象j在子带(i,b)的能量与子带(i,b)中能量最大的对象能量,I是总帧数,J是对象的个数,B是子带数量。
6.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤15中,利用栈式稀疏自编码器对边信息进行降维表达,根据查表法对边信息值进行量化,将对应的量化索引形成码流输出。
7.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤16中,采用AAC编码器将步骤13输出的下混信号进行编码,得到下混信号码流。
8.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤21中,根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011102043.2/1.html,转载请声明来源钻瓜专利网。