[发明专利]一种基于张量建模的多路空间音频信号压缩和恢复方法有效
申请号: | 201710342387.2 | 申请日: | 2017-05-16 |
公开(公告)号: | CN106981292B | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 王晶;谢湘;刘敏;单亚慧;费泽松 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G10L19/008 | 分类号: | G10L19/008 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种基于张量建模的多路空间音频信号压缩和恢复方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。对于多路空间音频信号进行声道能量归一化,同时获得声道能量调整参数,对每个声道的音频信号进行分帧、时频变换得到频域上的特征参数。对于训练样本集,建立四阶音频张量,经过张量分解得到三个低秩因子矩阵,其与测试样本集构建的三阶音频张量进行张量运算,得到压缩的核张量与声道能量调整参数一起编码传输,在解码端传输而来的核张量与训练好的低秩因子矩阵进行张量重构,对重构的张量信号在每个声道上进行逆变换、重叠相加和能量调整恢复出多路空间音频信号。本方法采用独特的因子矩阵的训练模式对多路空间音频信号进行张量建模能达到更高的压缩效率。 | ||
搜索关键词: | 一种 基于 张量 建模 空间 音频 信号 压缩 恢复 方法 | ||
【主权项】:
一种基于张量建模的多路空间音频信号压缩方法,所述多路空间音频信号是指声道数目为N、样本数为M的音频信号,其特征在于,包括以下步骤:(S1)求每个声道音频信号的平均能量值Ech,标准归一化的参数E0,以及每个声道对应的声道能量调整参数ech,公式为:Ech=Σi=ICxi2C(i=1,...,C;ch=1,...,P)---(1)]]>E0=Σch=1PEchP(ch=1,...,P)---(2)]]>ech=E0Ech(ch=1,...,P)---(3)]]>其中,xi为单个声道的采样点,C为每个声道的采样点的个数,P=M×N。(S5)从所述样本数为M的多声道音频中随机选取M1个样本作为训练样本集,其余的样本数M2=M‑M1作为测试样本集;对M1个训练样本构造四阶音频张量信号,依次进行排列构成四阶音频张量空间X,所述四阶音频信号张量空间大小为M1×N×T×F,其中,M1、N、T和F分别为样本、声道、帧序列和频域系数四个维度所对应的维数;以及(S6)对步骤S5中所述X进行张量分解,如下式:X=S×1Us×2Uc×3Ut×4Uf,其中,×1、×2、×3和×4分别表示张量在第一阶、第二阶、第三阶和第四阶的张量矩阵乘,Us、Uc、Ut和Uf分别为X投影在样本、声道、帧序列和频域四个子空间下的低秩因子矩阵,S为四阶低秩核张量,其在样本子空间、声道子空间、帧序列子空间和频域子空间上的维数分别为M1、R、Q和O。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710342387.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于语音识别的智能核单质检系统
- 下一篇:一种用于电子通讯的智能调频系统