[发明专利]语音增强模型的训练方法和装置及语音增强方法和装置有效

申请号：	202011556441.1	申请日：	2020-12-25
公开（公告）号：	CN112289333B	公开（公告）日：	2021-04-13
发明（设计）人：	张新;郭亮;郑羲光;张晨	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0216;G10L25/03;G10L25/30
代理公司：	北京铭硕知识产权代理有限公司 11286	代理人：	苏银虹;曾世骁
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音增强模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于一种语音增强模型的训练方法和装置及语音增强方法和装置，所述训练方法包括：获取多个说话人的语音样本，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的；根据含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和含噪语音样本的幅度谱，特征向量是使用特征提取网络提取第一纯净语言样本得到的；将幅度谱和特征向量输入语音增强网络，得到估计的掩膜比；根据估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定语音增强模型的损失函数；通过根据损失函数调整特征提取网络和语音增强网络的模型参数。

技术领域

本公开涉及音频技术领域，更具体地说，涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。

背景技术

在一定的应用场景下(如会议，街道)，音频中会混有较多的其他人说话的声音和背景噪声，大多数情况下为瞬态噪声，由于传统的只能处理稳态噪声，所以通常采用深度学习的方法进行语音增强。语音增强的目的是提升语音的可懂度和音质，使得处理后的音频达到更容易传递信息和听觉舒适的作用。然而，语音增强通常是单纯去除背景噪声，而剩余的语音可能为多个说话人的混合语音，语音可懂度依然较低。

发明内容

本公开提供一种语音增强模型的训练方法和装置及语音增强方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种语音增强模型的训练方法，所述语音增强模型包括特征提取网络和语音增强网络，所述训练方法包括：获取多个说话人的语音样本，其中，每个说话人的语音样本包括含噪语音样本和第一纯净语音样本，其中，所述含噪语音样本是根据与说话人对应的第二纯净语音样本添加噪声数据得到的；根据所述含噪语音样本和第一纯净语音样本，获取每个说话人对应的特征向量和所述含噪语音样本的幅度谱，其中，所述特征向量是使用所述特征提取网络提取第一纯净语言样本得到的；将所述幅度谱和所述特征向量输入所述语音增强网络，得到估计的掩膜比，其中，所述掩膜比表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值；根据所述估计的掩膜比确定估计的增强语音信号，根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数；通过根据所述损失函数调整所述特征提取网络和所述语音增强网络的模型参数，对所述语音增强模型进行训练。

可选地，第一纯净语音样本和第二纯净语音样本可不同。

可选地，每个说话人的第一纯净语音样本可包括多条纯净语音样本；其中，所述获取每个说话人对应的特征向量，可包括：将所述多条纯净语音样本的幅度谱输入所述特征提取网络，获得每个说话人对应的多个特征向量。

可选地，每个说话人的第二纯净语音样本可包括多条纯净语音样本，相应得到的每个说话人对应的所述含噪语音样本包括多条含噪语音样本；其中，所述获取每个说话人对应的所述含噪语音样本的幅度谱，可包括：分别提取所述多条含噪语音样本的幅度谱以获得每个说话人对应的多个幅度谱。

可选地，所述将所述幅度谱和所述特征向量输入所述语音增强网络，得到估计的掩膜比，可包括：将每个说话人对应的所述多个特征向量求平均，获得每个说话人对应的平均特征向量；将每个说话人对应的平均特征向量扩充至与每个说话人对应的所述多个幅度谱相同的维度；分别将每个说话人的所述多个幅度谱与相应说话人的扩充后的平均特征向量进行串联以获得每个说话人对应的多个串联后的特征；将每个说话人对应的所述多个串联后的特征作为所述语音增强网络的输入。

可选地，所述根据所述估计的掩膜比确定估计的增强语音信号，可包括：分别将所述幅度谱与所述估计的掩膜比相乘，获得估计的幅度谱，并将所述估计的幅度谱与所述含噪语音样本的相位谱结合并执行时频逆变换，以获得估计的增强语音。

可选地，所述根据估计的增强语音信号和第二纯净语音样本确定所述语音增强模型的损失函数，可包括：基于估计的增强语音信号和第二纯净语音样本，计算语音失真度，作为所述损失函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司，未经北京达佳互联信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011556441.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于升力线模型的振动信号特征优化方法及系统
下一篇：一种基于用户聊天记录的标签挖掘方法及设备

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音增强模型的训练方法和装置及语音增强方法和装置有效

专利文献下载