[发明专利]一种基于语音信号处理的语音分离办法有效
申请号: | 201910542125.X | 申请日: | 2019-06-21 |
公开(公告)号: | CN110310658B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 廖旭;黄沁鹏;冯振邦 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G10L21/0308 | 分类号: | G10L21/0308 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 石燕妮 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 信号 处理 分离 办法 | ||
1.一种基于语音信号处理的语音分离办法,其特征在于:所述基于语音信号处理的语音分离办法包括:
步骤一,定义混合语音信号为
y(t)=x(t)+n(t)
x(t)=y(t)*ρ(t);
其中,x(t)为纯净语音,n(t)为噪音语音,ρ(t)为模糊函数;
步骤二,将混合语音信号通过多通道的伽马通滤波器组,对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵,对得到的时频单元矩阵进行特征提取得到特征组,所述特征组包括振幅调制谱、感知线性预测,梅尔频率倒谱系数,伽马通频率,使用自回归与移动平均模型来平滑特征的时间轨迹:
其中,C(t)是第t帧的特征向量,是滤波后的特征向量,m是伽马通滤波器组中伽马通滤波器的阶数;
步骤三,建立深度神经网络,将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组,使用深度神经网络预测前述标定组,输出标定组预测结果作为语音分离结果g(x,y);
步骤四,计算步骤三语音分离结果的质量评价因子,根据前述质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在模糊效应,则转入步骤五,否则,退出去模糊进程,定义语音分离结果为最终纯净语音;
步骤五,根据g(x,y)=y(t)*k(x,y),依据能量最小化准则计算模糊核函数为
步骤六,定义当前模糊核函数k(x,y)为已知,依据能量最小化准则计算最优纯净语音
步骤七,将最优纯净语音定义为y(t),转到步骤一;
所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI,以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE;
2.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:步骤四中判定当前语音分离结果是否存在模糊效应为:
定义统计模糊语音数据集中的质量评价因子下限Qmin,比较当前质量评价因子Q与质量评价因子下限Qmin的大小,当Q≤HQmin时判定为不模糊,Q>HQmin时判定为模糊,其中H为容差参数。
3.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:
在依据能量最小化准则计算模糊核函数为中,进行迭代得到最优的模糊核函数迭代终止条件为Q>HQmin,迭代公式为
其中,n为迭代次数。
4.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:步骤六中依据能量最小化准则计算最优纯净语音为对进行迭代,
其中,为迭代次数。
5.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:所述深度神经网络包括三个隐层,每层1024个节点,激活函数为线性纠正函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910542125.X/1.html,转载请声明来源钻瓜专利网。