[发明专利]一种适用于非平稳噪声环境下的在线语音增强方法有效

申请号：	201610843483.0	申请日：	2016-09-23
公开（公告）号：	CN106340304B	公开（公告）日：	2019-09-06
发明（设计）人：	冯宝;张绍荣;孙山林;郑伟;张国宁;武博;韦周耀	申请（专利权）人：	桂林航天工业学院
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0264
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	梁莹
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种适用于非平稳噪声环境下的在线语音增强方法，包括步骤：1)建立非平稳噪声环境下的系统模型；2)分帧和加窗；3)系统初始化；4)估计AR参数；5)估计语音信号状态序列。本发明针对语音模型中AR参数不能随噪声变化实时更新的问题，提出了双卡尔曼滤波框架，两个卡尔曼滤波器并行运算，语音信号状态估计和AR参数估计互相更新，状态估计过程和参数估计过程交替进行，使得参数估计过程能够适应噪声变化过程，以提高系统模型的准确性，进而提高语音增强的性能。本发明针对传统卡尔曼滤波算法无法处理非平稳噪声的问题，结合凸优化技术，提出了改进型卡尔曼滤波框架，能够对高斯噪声和非平稳噪声进行准确估计，提高了语音增强的准确性。
搜索关键词：	一种适用于平稳噪声环境在线语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种适用于非平稳噪声环境下的在线语音增强方法，其特征在于，包括以下步骤：1)建立非平稳噪声环境下的系统模型1.1)建立高斯噪声和稀疏噪声共同存在情况下的自回归AR模型语音信号的产生过程为一个由白噪声激励，经全极点线性系统输出的自递归过程，即当前的输出等于现在时刻的激励信号与过去p个时刻输出的加权和，这是一个自回归AR模型，表示如下：其中，u(k)为k时刻的高斯白噪声激励值；s(k‑i)为第(k‑i)时刻的语音信号；s(k)为第k时刻的语音信号；a_i为第i个线性预测系数，也称为AR模型参数；p为AR模型参数的阶数；建立符合实际量测过程的语音信号模型，语音信号量测过程描述如下：Y(k)＝s(k)+n(k)+v(k) (2)其中，Y(k)为k时刻语音信号量测序列；s(k)为k时刻的语音信号；n(k)为k时刻高斯白噪声；v(k)为k时刻非平稳噪声，服从拉普拉斯分布，具有稀疏性；1.2)建立语音信号状态空间模型将公式(1)和公式(2)转换为状态空间模型，描述如下：X(k)＝FX(k‑1)+p(k) (3)Y(k)＝CX(k)+n(k)+v(k) (4)其中，C＝[0 0...0 1] (6)X(k)＝[S(k‑p+1)...S(k)]^T (7)在语音信号状态方程(3)和语音信号量测方程(4)中，X(k)为k时刻语音信号状态估计序列，即语音信号的最优状态估计；X(k‑1)为(k‑1)时刻语音信号状态估计序列；Y(k)为k时刻语音信号量测序列；F为线性预测系数构成的状态转移矩阵，F中的最后一行[a_p(k)…a₁(k)]称为AR参数；C＝[0 0...0 1]为量测转移矩阵；p(k)是k时刻状态噪声，服从高斯分布；n(k)是k时刻量测噪声，服从高斯分布；v(k)是k时刻的非平稳噪声，服从拉普拉斯分布；语音信号的状态和量测噪声p(k)和n(k)的统计特性为：E(p(k))＝q,E(n(k))＝rE(p(k)p(j)^T)＝Qδ_kj,E(n(k)n(j)^T)＝Rδ_kj (8)其中，q和r分别为噪声p(k)和n(k)的均值；Q和R分别为噪声p(k)和n(k)的协方差；δ_kj为Kronecker函数；语音增强问题是在已知量测语音信号Y(k)的前提下去估计最优语音信号X(k)；2)分帧和加窗语音信号具有短时平稳性，10‑‑30ms内认为语音信号不变，这样就能够把语音信号分为一些短段来来进行处理，这就是分帧，语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的；通常每秒的帧数为33～100帧，分帧方法为交叠分段的方法，前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值为0～0.5；3)系统初始化3.1)改进型卡尔曼滤波器参数初始化初始化语音信号状态估计序列X(0/0)、协方差矩阵P(0/0)，保证协方差矩阵是正定的；3.2)AR参数初始化初始化AR参数状态估计序列θ(0/0)；4)估计AR参数AR参数是指公式(3)中状态转移矩阵F中的最后一行[a_p(k)…a₁(k)]，主要用来描述语音生成过程，其准确性对语音增强的结果有着直接的影响；提出在AR参数的估计中综合考虑语音信号状态估计序列X(k‑1)、状态噪声q(k)、量测噪声n(k)、非平稳噪声v(k)，建立新的AR参数估计状态空间模型，实现AR参数在线鲁棒估计，而对AR参数的实时估计过程如下：4.1)建立AR参数的参数估计模型高斯噪声和非平稳噪声混下环境下的AR参数模型描述如下：其中，θ(k)＝[a_p(k)...a₁(k)]^T为k时刻AR参数状态序列；q(k)为k时刻状态噪声，服从高斯分布，其协方差矩阵为Q(k)；r(k)为k时刻量测噪声，服从高斯分布，其协方差矩阵为R(k)；v(k)为k时刻非平稳噪声，服从拉普拉斯分布，具有稀疏性，其协方差矩阵为W(k)；A＝X(k‑1)^T＝[S(k‑p)...S(k‑1)]为量测矩阵；Y(k)为k时刻语音信号量测序列；状态和量测噪声q(k)和r(k)的统计特性为：E(q(k))＝d,E(r(k))＝lE(q(k)q(j)^T)＝Dδ_kj,E(r(k)r(j)^T)＝Lδ_kj (10)其中，d和l分别为噪声q(k)和r(k)的均值；D和L分别为噪声q(k)和r(k)的协方差；δ_kj为Kronecker函数；4.2)从凸优化角度重构传统卡尔曼滤波问题为了能够方便地对稀疏噪声进行估计，需要从凸优化的角度重构卡尔曼滤波问题，传统卡尔曼滤波的状态空间模型，不含非平稳噪声v(k)，如下：θ(k)＝θ(k‑1)+q(k)Y(k)＝Aθ(k)+r(k) (11)根据贝叶斯原理，AR参数估计问题表述为在量测数据Y(k)已知的前提下，估计最优AR参数序列θ(k)，即：根据最大似然估计理论，建立p(Y(k)|θ(k))和p(θ(k))的似然函数：其中，Ψ为在已知的情况下条件概率p(θ(k)|Y(k))的协方差矩阵Ψ(k)＝P_θ(k|k)+D(k)，其中P_θ(k|k)为协方差更新值；当似然函数条件L₁(Y(k),θ(k))和L₂(θ(k))取得极大值时，条件概率p(Y(k)|θ(k))取得最优估计值；观察式(13)和式(14)发现最大化似然函数条件L₁(Y(k),θ(k))和L₂(θ(k))相当于最小化似然函数中幂指数的指数部分与因此得到如下优化形式：subjiect to Y(k)＝Aθ(k)+r(k) (15)其中，θ(k)和r(k)为变量，Ψ(k)＝P_θ(k|k)+D(k)是高斯噪声的协方差矩阵；θ(k)的估计值即是r(k)就是对高斯噪声的估计；P_θ(k|k)为协方差更新矩阵：P_θ(k|k)＝(I‑K_θ(k)A(k))P_θ(k|k‑1) (16)P_θ(k|k‑1)为协方差预测矩阵：P_θ(k|k‑1)＝P_θ(k‑1|k‑1)+D(k‑1) (17)K_θ(k)为协方差增益：K_θ(k)＝P_θ(k|k‑1)A^T(AP_θ(k|k‑1)A^T+L(k‑1))^‑1 (18)4.3)从凸优化角度构建对非平稳噪声估计的优化问题非平稳噪声服从拉普拉斯分布，具有稀疏特性，非平稳噪声估计的核心思想是利用噪声的稀疏特性，经过步骤4.2)将传统卡尔曼滤波问题转化为凸优化问题后，能够在优化中增加非平稳噪声v(k)的稀疏性约束来完成对稀疏噪声的估计，新的优化形式为：其中，v(k)即为稀疏噪声，通过对上述优化问题求解，能够得到对AR参数的最优估计θ(k)，式(17)表示的优化问题为一个凸优化问题，能够使用工程中的内点法进行求解；5)估计语音信号状态序列5.1)从凸优化角度重构传统卡尔曼滤波问题为了能够方便地对稀疏噪声进行估计，需要从凸优化的角度重构卡尔曼滤波问题，传统卡尔曼滤波的状态空间模型如下：X(k)＝FX(k‑1)+p(k) (20)Y(k)＝CX(k)+n(k) (21)根据贝叶斯原理，卡尔曼滤波问题表述为在量测数据Y(k)已知的前提下，估计最优语音状态序列X(k)，即：根据最大似然估计理论，建立p(Y(k)|X(k))和p(X(k)的似然函数：其中，Θ为在已知的情况下条件概率p(X(k)|Y(k‑1))的协方差矩阵Θ＝FP(k‑1|k‑1)F^T+Q(k‑1)，其中P(k‑1|k‑1)为协方差更新值；当似然函数条件L₁(Y(k),X(k))和L₂(X(k))取得极大值时，条件概率p(X(k)|Y(k))取得最优估计值；观察式(23)和式(24)发现最大化似然函数条件L₁(Y(k),X(k))和L₂(X(k))相当于最小化似然函数中幂指数的指数部分与因此得到如下优化形式：subjiect to Y(k)＝CX(k)+n(k) (25)其中，X(k)和n(k)为变量，Θ是高斯噪声的协方差矩阵；X(k)的估计值即是n(k)就是对高斯噪声的估计；P(k|k)为协方差更新矩阵：P(k|k)＝(I‑K(k)C(k))P(k|k‑1) (26)P(k|k‑1)为协方差预测矩阵：P(k|k‑1)＝F(k‑1)P(k‑1|k‑1)F(k‑1)^T+Q(k‑1) (27)K_θ(k)为协方差增益：K(k)＝P(k|k‑1)C^T(CP(k|k‑1)C^T+R(k‑1))^‑1 (28)5.2)从凸优化角度构建对稀疏噪声的估计问题稀疏噪声的估计的核心思想是利用噪声的稀疏特性，经过步骤5.1)将传统卡尔曼滤波问题转化为凸优化问题后，能够在优化中增加稀疏噪声v(k)的稀疏性约束来完成对稀疏噪声的估计，新的优化形式为：subjiect to Y(k)＝CX(k)+n(k)+v(k) (29)其中，v(k)即为稀疏噪声，通过对上述优化问题求解，得到对熔池质心位置的最优估计X(k)，X(k)为传统卡尔曼滤波中对状态值的最优估计式(29)表示的优化问题为一个凸优化问题，能够使用工程中的内点法进行求解；5.3)完成对k时刻语音信号的增强之后，增强结果将返回到步骤4)，用于更新k+1时刻的AR参数θ(k+1)，之后再继续进行k+1时刻的语音增强，估计X(k+1)，直至将所有语音信号处理完。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于桂林航天工业学院，未经桂林航天工业学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610843483.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种适用于非平稳噪声环境下的在线语音增强方法有效

专利文献下载