[发明专利]一种语音/音乐双模编解码无缝切换方法有效

申请号：	200710062862.7	申请日：	2007-01-19
公开（公告）号：	CN101025918A	公开（公告）日：	2007-08-29
发明（设计）人：	张树华;窦维蓓;杨华中;张斌	申请（专利权）人：	清华大学
主分类号：	G10L19/00	分类号：	G10L19/00;G10L19/12;H04Q7/20
代理公司：	暂无信息	代理人：	暂无信息
地址：	100084北京市100***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种语音/音乐双模编解码无缝切换方法。当双模编解码器从基于CELP的语音模式切换到基于MDCT的音乐模式时，对切换前的最后一个CELP帧时域音频信号的尾部采用加窗和折叠处理，切换的连续性由MDCT变换的重叠相加性质保证；当双模编解码器从基于MDCT的音乐模式切换到基于CELP的语音模式时，切换前最后一个MDCT帧采用一种新的窗型使其与切换后第一个CELP帧无时域重叠，切换的连续性由预编码技术保证。该方法对采用CELP模式的音频时域信号进行特定的降采样处理，以适应两种编解码模式对输入音频信号采样率的不同要求以及音频信号动态的时频域特性。
搜索关键词：	一种语音音乐双模解码无缝切换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.-种语音/音乐双模编码无缝切换方法，其特征在于依次含有以下步骤：步骤(1)，在数字集成电路中构成一个编码器，在该编码器至少有四个子模块：语音/音乐分类子模块，区分语音帧和音乐帧；语音/音乐切换模块，对语音帧和音乐帧作无缝切换；修正余弦变换的音乐编码子模块AAC，对音乐编码；语音编码子模块CELP，对语音编码；步骤(2)，该语音/音乐分类子模块把输入的音频信号划分为语音帧和音乐帧；步骤(3)，把步骤(2)所得到的结果送入语音/音乐切换模块，判断是否为语音帧；步骤(4)，在步骤(3)中，若判断为语音帧，则执行步骤(5)，若判断为音乐帧，则执行步骤(6)；步骤(5)判断步骤(4)得到的语音帧的上一帧是否为语音帧：若其上一帧是音乐帧，则执行步骤5.1；若其上一帧是语音帧，则执行步骤(5.2)；步骤(5.1)，若步骤(5)判断的结果，所选语音帧的上一帧是音乐帧，则进行预编码：首先从上一帧经过编码量化后的整数修正余弦变换MDCT频谱数据中恢复第L帧的前N/2个样点，L是当前帧的帧序号，N是一帧的采样点数，为偶数，各帧相同；再从这N/2个点中截取最后的P个样点，P为一个CELP编码帧的样点数，降采样后作为语音编码器CELP的输入；编码该帧前CELP的内部状态清0，该帧的编码数据不写入最终的编码码流；然后，CELP保持其内部状态进入步骤(5.2)；步骤(5.2)判断(4)得到的语音帧的下一帧是否为语音帧：若其下一帧是音乐帧，则执行步骤(5.3)；若其下一帧是音乐帧，执行步骤(5.4)；步骤(5.3)，若步骤(5.2)判断的结果，所选语音帧的下一帧是音乐帧，则进行加窗折叠：取当前语音帧的最后M/2个样点和与当前语音帧相邻的下M/2个时域样点，M为偶数，组成时间上连续的M个样点，即加窗折叠区，做如下的加窗折叠处理：yL(N+i)＝x(N+i)*h2(M/2-1-i)+x(N-1-i)*h2(M/2+i) i＝-M/2，...，-1，N是一帧的采样点数，为偶数，xL(N+i)，i＝-M/2，...，-1是当前帧输入的最后M/2个时域信号，xL(N-1-i)，i＝-M/2，...，-1是紧邻当前帧之后的个时域信号，h2(M/2-1-i)，i＝-M/2，...，-1是窗函数h2的后M/2个样点，h2(M/2+i)，i＝-M/2，...，-1是窗函数h2的前M/2个样点，h2是满足MDCT完全重建条件的单调递增函数：h2(i)2+h2(M-1-i)2＝1，i＝0，...，M-1，得到yL(N-M/2)，...，yL(N-1)共M/2个样点，与当前帧的前N-M/2个样点xL(0)，...，xL(N-M/2+1)组成新的N样点序列：xL(0)，...，xL(N-M/2+1)，yL(N-M/2)，...，yL(N-1)，以这N个样点作为输入，进入步骤(5.4)；步骤(5.4)，将来自步骤(5.2)原N点时域信号或(5.3)经处理的N点时域信号进行k倍降采样处理，得到k*N个样点，k*N表示不超过k*N最大整数，k＝fs/fa为CELP的采样率fs与输入音频的采样率fa的比值，以这k*N个样点为输入，进入步骤(5.5)；步骤(5.5)，对步骤(5.4)得到的k*N点序列进行CELP编码，得到CELP码流；步骤(6)判断步骤(4)得到音乐帧，判断其上一帧是否为音乐帧，若上一帧是语音帧则执行步骤(6.1)；若上一帧是音乐帧则执行步骤(6.2)；步骤(6.1)，对由作为上一帧的语音帧向音乐帧切换的第一个MDCT变换的作用区域第I帧和第(I+1)帧，I是当前帧的帧序号，做如下的加窗处理：

\{\begin{matrix} y_{I} (i) = x_{I} (i) * w_{2} (i), & i = 0,1, . . . ., N - 1 \\ y_{(I + 1)} (i) = x_{(I + 1)} (i) * w_{2} (i + N), & i = 0,1, . . . ., N - 1 \end{matrix}

xI(i)，i＝0，1，...，N-1为第I帧的N点时域信号，x(I+1)(i)，i＝0，1，...，N-1为第(I+1)帧的N点时域信号，w2为窗函数，由下式决定：

w_{2} (i) = \{\begin{matrix} 0, & 0 \leq i < (N - M) / 2 \\ h_{2} (i - (N - M) / 2) & (N - M) / 2 \leq i < (N + M) / 2 \\ 1, & (N + M) / 2 \leq i < N \\ h_{1} (2 N - 1 - i) & N \leq i < 2 N \end{matrix}

其中h2与步骤(5.3)中的h2一致，h1为满足MDCT完全重建条件的窗函数：h2(j)2+h2(M-1-j)2＝1，j＝0，...，M-1，得到的时域上连续的2N点加窗信号yI(0)，...，yI(N-1)，y(I+1)(0)，...，y(I+1)(N-1)，作为输入，进入步骤(6.3)；步骤(6.2)，若上一帧是音乐帧，则判断当前帧的下一帧是否为音乐帧；若下一帧不是音乐帧，执行步骤(6.2.1)；若下一帧是音乐帧，执行步骤(6.2.2)；步骤(6.2.1)，当前帧的下一帧是语音帧，对当前帧和下一帧进行如下的加窗处理：

\{\begin{matrix} y_{I} (i) = x_{I} (i) * w_{1} (i), & i = 0,1, . . . ., N - 1 \\ y_{(I + 1)} (i) = x_{(I + 1)} (i) * w_{1} (i + N), & i = 0,1, . . . ., N - 1 \end{matrix}

I是当前帧的帧序号，(I+1)是下一帧的帧序号，xI(i)，i＝0，1，...，N-1为第I帧的N点时域信号，x(I+1)(i)，i＝0，1，..，N-1为第(I+1)帧的N点时域信号，w1为窗函数，由下式决定：

w_{1} (i) = \{\begin{matrix} h_{1} (i), & 0 \leq i < N \\ 1, & N \leq i < 3 N / 2 \\ 0, & 3 N / 2 \leq i < 2 N \end{matrix}

其中h1与步骤(6.1)中的h1一致，得到的时域上连续的2N点加窗信号yI(0)，...，yI(N-1)，y(I+1)(0)，...，y(I+1)(N-1)，作为输入，进入步骤(6.3)；步骤(6.2.2)，当前帧的下一帧是语音帧，对当前帧和下一帧进行如下的加窗处理：

\{\begin{matrix} y_{I} (i) = x_{I} (i) * w_{0} (i), & i = 0,1, . . . ., N - 1 \\ y_{(I + 1)} (i) = x_{(I + 1)} (i) * w_{0} (i + N), & i = 0,1, . . . ., N - 1 \end{matrix}

I是当前帧的帧序号，(I+1)是下一帧的帧序号，xI(i)，i＝0，1，...，N-1为第I帧的N点时域信号，x(I+1)(i)，i＝0，1，...，N-1为第(I+1)帧的N点时域信号，w0为窗函数，由下式决定：

w_{0} (i) = \{\begin{matrix} h_{1} (i), & 0 \leq i < N \\ h_{1} (2 N - 1 - i), & N \leq i < 2 N \end{matrix}

其中h1与步骤(6.1)中的h1一致，得到的时域上连续的2N点加窗信号yI(0)，...，yI(N-1)，y(I+1)(0)，...，y(I+1)(N-1)，作为输入，进入步骤(6.3)；步骤(6.3)，对步骤(6.1)或者(6.2.1)或者(6.2.2)得到的点序列进行AAC编码，得到AAC码流。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200710062862.7/，转载请声明来源钻瓜专利网。

上一篇：烧结机台车滑板密封装置
下一篇：溴化锂吸收式制冷机制冷时生产卫生热水节能装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音/音乐双模编解码无缝切换方法有效

专利文献下载