[发明专利]一种语音编码器码流的转码方法在审

申请号：	201310598532.5	申请日：	2013-11-20
公开（公告）号：	CN104658539A	公开（公告）日：	2015-05-27
发明（设计）人：	盖丽	申请（专利权）人：	大连佑嘉软件科技有限公司
主分类号：	G10L19/002	分类号：	G10L19/002;G10L19/035;G10L19/18
代理公司：	无	代理人：	无
地址：	116011 辽宁省大连***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音编码器方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音编码器码流的转码方法，其特征在于：通信网1发送的A码流经过比特流解析单元，解码单元，参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流，所述通信网1、2是使用不同语音编码标准的通信网络。

2.根据权利要求1所述的一种语音编码器码流的转码方法，其特征在于：比特流解析单元用于接收通信网1发送的A码流，具体步骤如下：

(1)根据通信网1的A编码标准的帧结构，从输入的A码流的相应比特位提取模式信息、帧类型信息和参数比特。

(2)根据通信网1的A编码标准的帧结构，将参数比特转化为语音参数量化编码后的参数值，语音帧的参数包括线谱对系数、基音延迟、固定码本非零脉冲位置和符号及增益；静音插入描述帧的参数为线谱对系数和语音能量。

(3)从A码流中提取帧类型信息，判断接收到的帧类型为语音帧、非传输帧或静音插入描述帧。

3.根据权利要求1所述的一种语音编码器码流的转码方法，其特征在于：解码单元用于A解码器从参数比特中解码，得到语音参数值及合成语音，具体步骤如下：

(1)如果接收到的帧类型为静音插入描述帧，则根据接收到的参数索引值解码，得到语音参数值，参数为线谱对系数和能量ener。

(2)如果接收到的帧类型为语音帧，则：

(a)根据接收到的参数索引值，解码得到语音参数值，参数包括线谱对系数、基音延迟的整数部分T0和分数部分T0_frac、固定码本非零脉冲位置和符号、量化的自适应码本增益g'_p和量化的固定码本增益g'_c,

(b)根据上述语音参数，用通信网1的A编码标准进行语音重建，得到重构语音s'(n),

(c)得到重构语音s'(n)后，不进行A解码器中的后置处理。

4.根据权利要求1所述的一种语音编码器码流的转码方法，其特征在于：参数转换单元用于对解码所得的语音参数进行转码，得到通信网2的B编码标准量化编码所需的语音参数，具体步骤如下：

(1)若接收到的为语音帧，则转码步骤为：

(a)线性预测分析：

线谱对系数的转码包括离线的映射模型参数获取和在线的参数映射，

映射模型参数获取的过程为，首先由A、B编码器对10小时以上的语音数据、各种类型、各种语言的语音数据分别进行编码，得到K组量化的线谱对系数，所述各种类型包括成年男声、成年女声、男童声、女童声；各种语言包括汉语、英语、法语、西班牙语、阿拉伯语：LSP_A(k,i)和LSP_B(k,i)，k=1，…，K，i=1，…，n，其中n为线谱对系数矢量的维数；再用支持向量回归算法计算LSP_A和LSP_B之间的映射模型：LSP_B(i)＝w_i^TLSP_A(i)+b_i的参数w_i、b_i，i=1，…，n；转码时，就可由A编码器线谱对系数LSP_A(i)使用n个映射模型：LSP_B(i)＝w_i^TLSP_A(i)+b_i，i=1，…，n，分别计算出LSP_B(i)，i=1，…，n；

用支持向量回归(SVR)算法计算LSP_A和LSP_B之间的映射模型参数w_i、b_i具体过程为：

定义第k帧语音的线谱对系数LSP_A和LSP_B分别为训练数据x和y，即记x(k,i)=LSP_A(k,i),y(k,i)=LSP_B(k,i)；用n个回归函数f_i(x)=w_i^Tx+b_i拟合数据{x(k,i),y(k,i)}，k=1，…，K,i=1，…，n；

定义n个映射函数fi(x)=wiTx+bi=Σk=1K(αk*-αk)(xkx)+bi*,]]>

wi=Σk=1K(αki*-αki)xki,bi*=1NΣj∈{j|αji>0}[yji-Σk=1Kykiαki(xki·xji)],]]>

其中，a_ki和a_ki^*是拉格朗日因子；对于给定的i，拉格朗日因子的求解过程为：

定义Lagrange函数：

G(wi,ζki,ζki*)=12||w||2+CΣk=1r(ζki+ζki*)-Σk=1rαki(ϵ+ζki+yki-wi·xki-bi)-Σk=1rαki*(ϵ+ζki*+yki-wi·xki-bi)-Σk=1r(ηkiζki+ηki*ζki*),]]>

其中C_i为常数且C_i>0，ζ_ki≥0和为松弛因子，ε为拟合精度；最大化目标函数：

W(αki,αki*)=-ϵΣk=1K(αki*+αki)+Σk=1Kyki(αki*-αki)-12Σk,j=1K(αki*-αki)(αji*-αji)(xki·xji),]]>

其中，拉格朗日因子a_ki和a_ki^*满足Σk=1K(αki-αki*)=0,0≤αki,αki*≤C,k=1,...K,]]>构成一个典型的二次规划问题，利用KKT条件：α_ki=0→y_kif(x_ki)≥1；0<α_ki<C→y_kif(x_ki)=1；α_i=C→y_kif(x_ki)≤1，使用序列最小优化算法解此二次规划问题，序列最小优化算法步骤如下：

1)给定拉格朗日因子初值，一般取α_ki=0；

2)计算训练数据的KKT条件，找到违反KKT条件的数据点(x_1i,y_1i)对应的拉格朗日因子α_1i，将其作为两个拟优化的拉格朗日因子之一；

3)在训练数据中寻找满足max|f_i(x_1i)–f_i(x_2i)+y_2i-y_1i|的数据点(x_2i,y_2i)对应的拉格朗日因子作为α_2i。拉格朗日因子α_1i和α_2i挑选完毕，保持其他拉格朗日因子不变，形成一个最小规模的二次规划问题，即求解最优的和

4)求解上述最小二次规划问题：

K11=x1i2,]]>

K22=x2i2,]]>

K12=x1ix2i,]]>

α2inew=α2iold-y2i(E1-E2)2K12-K11-K22,]]>

其中E_ki=f_i^old(x_ki)–y_ki训练误差；

当y_1i≠y_2i时，L=max(0,α2iold-α1iold),H=min(C,C+α2iold-α1iold),]]>

当y₁＝y₂时，L=max(0,α1iold+α2iold-C),H=min(C,α1iold+α2iold),]]>

α2inew,clipped=H,α2inew≥Hα2inew,L<α2inew<HL,α2inew≤L,]]>

α1inew=α1iold+y1iy2i(α2iold-α2inew,clipped),]]>

得到一对新的拉格朗日因子和

5)检查是否存在违反KKT条件的数据点，存在则返回步骤2)；否则，得到整个问题的最优解，进行下一步；

6)得到回归函数：

fi(x)=wiTx+bi=Σk=1K(αki*-αki)(xkix)+bi*,]]>

其中：bi*=1NΣj∈{j|αji>0}[yji-Σk=1Kykiαki(xki·xji)],]]>N为支持向量的数量；

在进行转码时，由支持向量回归算法建立的映射模型，根据接收到的一组线谱对系数进行线谱对系数的映射，得到B编码器所需的一组线谱对系数，作为B编码标准的未量化的线谱对系数;

将得到的未量化的线谱对系数转化为线谱频率系数，按B编码标准量化编码后发送到通信网2;

根据通信网2的B编码标准，将映射所得的一组线谱对系数与前一帧或几帧的线谱对系数进行插值，得到每一子帧未量化的线谱对系数，再由每一子帧未量化的线谱对系数计算出各子帧未量化的线性预测系数A(z)，将映射所得的一组线谱对系数进行量化，得到当前帧一组量化的线谱对系数，将当前帧量化的线谱对系数与前一帧或几帧量化的线谱对系数进行插值，得到每一子帧的量化的线谱对系数，再由每一子帧的量化的线谱对系数计算出各子帧量化的线性预测系数A'(z)，未量化的线性预测系数A(z)和量化的线性预测系数A'(z)分别用于计算感知加权滤波器W(z)=A(z/γ₁)/A(z/γ₂)和合成滤波器1/A'(z)的系数，所述γ₁和γ₂为感知加权系数；

(b)开环基音搜索：

基于码激励线性预测的语音编码算法中，基音搜索分两步完成。第一步为开环基音搜索，大致估算基音周期，记为T_op，目的是为闭环基音搜索提供一个粗略的范围，以减小闭环基音搜索的计算量;第二步则是在T_op附近进行闭环基音搜索。

在进行转码时，省略通常的开环基音搜索过程，而将解码所得的基音延迟的整数部分T0直接作为B编码标准编码的开环基音搜素结果T_op：

T_op_B=T0_A,

(c)计算感知加权合成滤波器的冲激响应和自适应码本搜索的目标信号,

感知加权合成滤波器H(z)=A(z/γ₁)/(A'(z)A(z/γ₂))的冲激响应h(n)用于自适应码本和固定码本的搜索，一般每子帧计算一次。冲激信号经滤波器A(z/γ₁)后，再相继经过1/A'(z)和1/A(z/γ₂)得到h(n);

自适应码本搜索的目标信号x(n)的计算过程为：首先计算线性预测滤波器的残差信号res_LP(n)，计算公式为：

resLP(n)=s′(n)+Σi=1Pa^is′(n-i),]]>

其中，s'(n)为解码所得的重构语音，为量化的线性预测系数，P为线性预测滤波器的阶数。然后将残差信号res_LP(n)通过感知加权合成滤波器H(z)，即进行res_LP(n)与h(n)卷积，得到目标信号x(n)：

x(n)＝res_LP(n)*h(n)；

(d)自适应码本搜索,

自适应码本搜索包括闭环基音搜索和自适应码本矢量的计算;

闭环基音搜索的准则是使解码端的重构语音和编码端的重构语音之间的均方误差最小，即使R(k)最大：

R(k)=Σn=0len-1x(n)yk(n)Σn=0len-1yk(n)yk(n),]]>

其中，x(n)为目标信号，y_k(n)为在延时k的过去滤波激励，即过去的激励与h(n)的卷积，len为子帧长度;

进行闭环基音搜索时，搜索范围限制在预选值T_op附近，并根据解码所得的整数基音延迟T0的值确定闭环基音搜索的范围：

[T0-g₁(T0),T0+g₂(T0)]，

其中，g₁、g₂分别为T0的函数;

进行限定范围的闭环基音搜索，得到最佳整数基音延迟k，若按接收端编码标准，k在分辨率为分数延时的范围内，则应对最佳整数延时附近的分数进行测试。内插归一化相关系数R(k)并搜索它的最大值，得到分数基音周期;

R(k)t=Σi=0ϵR(k-i)bm(t-i·ϵ)+Σi=0ϵR(k+1+i)bm(ϵ-t+i·ϵ),]]>

其中，ε为分数延时分辨率的倒数，t=0,1,…,ε-1，b_m为内插滤波器系数;基音延迟确定后，在给出的整数延时k和分数延时t处内插过去的激励u(n)来计算自适应码本矢量：

v(n)=Σi=0Pu(n-k+i)bq(t+i·ϵ)+Σi=0Pu(n-k+1+i)bq(ϵ-t-i·ϵ),]]>

自适应码本确定后，就可计算自适应码本的增益g_p：

gp=Σn=0len-1x(n)y(n)Σn=0len-1y(n)y(n),]]>

其中，len为子帧长度，x(n)为自适应码本搜索的目标信号，v(n)与h(n)的卷积y(n)为自适应码本矢量滤波信号，即y(n)=v(n)*h(n)，这里h(n)为感知加权合成滤波器H(z)的冲激响应;

(e)固定码本搜索

固定码本矢量可表示为：

c(n)=S1δ(n-m1)+S2δ(n-m2)+......+SNpδ(n-mNp),n=0,1,Λ,len-1;]]>

其中，δ(n)为单位脉冲，N_p为固定码本矢量中非零脉冲的个数，len为子帧长度。m₁,m₂,...,表示非零脉冲的位置，S₁,S₂,...,表示相应位置非零脉冲的符号(1或-1)，c(n)为len维矢量，除N_p个非零脉冲外，其它元素均为0;

固定码本搜索是用加权的解码端的重构语音s'_w(n)和加权的编码端的重构语音之间的均方误差最小化准则来搜索固定码本矢量，即确定码本矢量中非零脉冲的位置和符号;

固定码本搜索的具体过程为，首先计算目标信号

x₂(n)＝x(n)-g_py(n),n＝0,1,Λ,len-1;

其中，x(n)为自适应码本搜索的目标信号，y(n)=v(n)*h(n)为自适应码本矢量滤波信号，g_p为自适应码本增益，len子帧长度;

若c为码本矢量，那么使下式最大的码本矢量即为所求：

其中，d是x₂(n)和感知加权合成滤波器的脉冲响应h(n)的相关信号，是h(n)的自相关矩阵，T表示矩阵转置;

矢量d的各元素按下式计算：

d(n)=Σi=0len-1x2(n)h(i-n),n=0,1,Λ,len-1,]]>

其中，len为子帧长度。对称矩阵的各个元素按下式计算：

式(1)中有关分子的项可由下式表示：

C=Σi=0Np-1Sid(ui),]]>

其中，u_i表示第i个脉冲的位置，S_i表示第i个脉冲的符号，N_p为固定码本矢量中非零脉冲的个数；式(1)中的分母由下式给出：

ED=Σi=0Np-1φ(ui,ui)+2Σi=0Np-2Σj=i+1Np-1SiSjφ(ui,uj),]]>

使式(1)最大的u₁,u₂,...即为所求的非零脉冲位置;

在转码时，可由解码所得到的固定码本矢量的位置m₁,m₂,Λ,，限定按照接收端编码标准进行固定码本搜索时的搜索范围，使固定码本的搜索在m₁,m₂,Λ,位置附近进行简化的搜索;

用A解码器解码所得的重构语音与B编码器编码所得的重构语音之间的均方加权误差最小来搜索固定码本增益的码本，即使下式最小：

E=||x-gpy-gcz||2=xTx+gp2yTy+gc2zTz-2gpxTy-2gcxTz+2gpgcyTz,]]>

其中，x为固定码本搜索的目标矢量，y为自适应码本矢量滤波信号，z是固定码本矢量与h(n)的卷积：

z(n)=Σi=0nc(i)h(n-i),n=0,Λ,len-1,]]>

其中，len为子帧长度;

(2)若接收到的帧类型为静音插入描述帧，则转码过程如下：

(a)将解码所得的当前帧与上一静音插入描述帧的量化的线谱对系数插值，作为B编码标准编码端相应帧未量化的线谱对系数：

LSPB(1)[i]=αLSPA(1)[i]+(1-α)LSPA(0)[i],i=0,1,Λ,n,]]>

其中，LSP⁽¹⁾、LSP⁽⁰⁾分别表示当前帧和上一静音插入描述帧的线谱对系数，n为线谱对系数的维数，α为插值系数；

(b)将解码得到的能量参数ener转换为B编码标准编码端相应帧的能量参数：

ener_B＝a·ener_A+b，

其中，a,b为线性拟合系数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连佑嘉软件科技有限公司;，未经大连佑嘉软件科技有限公司;许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310598532.5/1.html，转载请声明来源钻瓜专利网。

上一篇：多媒体播放方法及装置
下一篇：一种基于鸟鸣声的移动式鸟类识别方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音编码器码流的转码方法在审

专利文献下载