首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于栈式稀疏自编码器的面向对象编码方法有效

申请号：	202011102043.2	申请日：	2020-10-15
公开（公告）号：	CN112365896B	公开（公告）日：	2022-06-14
发明（设计）人：	胡瑞敏;吴玉林;王晓晨;胡晨昊;李罡;陈玮;柯善发;张灵鲲;刘文可	申请（专利权）人：	武汉大学
主分类号：	G10L19/008	分类号：	G10L19/008;G10L19/02
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	彭艳君
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于稀疏编码器面向对象编码方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于栈式稀疏自编码器的面向对象编码方法，其特征是，包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达；利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据；

其中，对音频对象边信息进行降维表达具体步骤如下：

步骤11、对输入的J个独立音频信号S₁，S₂，…，S_J通过改进离散余弦变换MDCT进行时域-频域变换，得到对象信号的频谱O₁，O₂，…，O_J；

步骤12、对步骤11得到的频谱O₁，O₂，…，O_J每帧数据进行精细的子带划分；

步骤13、对步骤12中的子带，计算所有对象的下混信号，获得下混信号码流；

步骤14、对步骤12中的子带，计算每个对象的边信息OLD，得到边信息矩阵G₁，G₂，…，G_J；

步骤15、将步骤14得到的边信息矩阵G₁，G₂，…，G_J传入栈式稀疏自编码器的编码器模块中，得到音频对象边信息的低维特征表达结果R，获得边信息码流；

步骤16、步骤13和步骤15得到的码流合成输出码流，传输到解码端；

其中，从音频对象边信息的低维结构中重构原始高维的边信息数据，具体步骤如下：

步骤21、分解接收到的码流，得到下混信号码流和边信息码流；

步骤22、步骤21得到的下混信号码流经过AAC解码得到下混信号；

步骤23、步骤21得到的边信息码流经过去量化操作得到边信息；

步骤24、将步骤23得到的边信息输入栈式稀疏自编码器的解码器模块中，得到重建后的音频对象边信息

步骤25、根据步骤22得到的下混信号和步骤24得到的对象边信息，得到重建的音频对象频谱

步骤26、根据步骤25得到的音频对象频谱进行逆改进离散余弦变换IMDCT处理，得到重建的单个对象的时域信号

2.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法，其特征是，步骤11中通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换，得到单个对象信号的频谱。

3.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法，其特征是，步骤12中根据子带数量对频谱混叠失真的影响，确定精细的子带划分的数量。

4.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法，其特征是，步骤13中将所有对象的频谱信息进行矩阵相加，得到下混信号数据，并作为传输码流进行传输；

下混信号的计算如下式所示：

其中sign()为符号函数，用于获取变量的符号。

5.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法，其特征是，在步骤14中，所述边信息矩阵的计算方式如下，

其中P_j(i，b)和P_max(i，b)分别表示对象j在子带(i，b)的能量与子带(i，b)中能量最大的对象能量，I是总帧数，J是对象的个数，B是子带数量。

6.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法，其特征是，在步骤15中，利用栈式稀疏自编码器对边信息进行降维表达，根据查表法对边信息值进行量化，将对应的量化索引形成码流输出。

7.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法，其特征是，在步骤16中，采用AAC编码器将步骤13输出的下混信号进行编码，得到下混信号码流。

8.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法，其特征是，在步骤21中，根据解码端接收到的码流，利用码流解析得到下混信号码流和边信息码流。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011102043.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于改进型锁相环的多普勒频率测量方法
下一篇：一种汽车空调压缩机偏心销垂直度及高度检测设备

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top