[发明专利]一种基于声纹识别的语音降噪方法、装置、设备及介质在审
申请号: | 202310267948.2 | 申请日: | 2023-03-15 |
公开(公告)号: | CN116312570A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 尹青山;冯落落;李沛;黄洋 | 申请(专利权)人: | 山东新一代信息产业技术研究院有限公司 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L17/20;G10L21/0208;G10L17/18 |
代理公司: | 北京君慧知识产权代理事务所(普通合伙) 11716 | 代理人: | 董延丽 |
地址: | 250013 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 声纹 识别 语音 方法 装置 设备 介质 | ||
1.一种基于声纹识别的语音降噪方法,其特征在于,包括:
获取指定人员的声纹模板信息,以及包括所述指定人员语音的场景音频;
对所述场景音频进行语音分离,以得到多个单一人员分别对应的人员音频,所述人员音频中包括场景噪音;
通过对所述人员音频以及所述声纹模板信息进行匹配,以确定所述指定人员对应的指定人员音频;
对所述指定人员音频进行降噪处理,以得到目标音频。
2.根据权利要求1所述的方法,其特征在于,所述对所述场景音频进行语音分离,以得到多个单一人员分别对应的人员音频,具体包括:
获取第一数据集,并通过所述第一数据集训练初始分离模型,以得到分离模型;
将所述场景语音输入至所述分离模型中,以得到多个单一人员分别对应的人员音频;
所述初始分离模型由第一编码器、第一解码器和掩码网络组成;所述第一编码器包括一维卷积网络以及整流线性单元,所述第一解码器中包括一维转置卷积层;所述掩码网络包括层归一化以及MossFormer模块。
3.根据权利要求1所述的方法,其特征在于,所述通过对所述人员音频以及所述声纹模板信息进行匹配,以确定所述指定人员对应的指定人员音频,具体包括:
获取第二数据集,并通过所述第二数据集训练初始匹配模型,以得到匹配模型,将所述人员语音以及所述声纹模板信息输入至所述匹配模型,以得到所述指定人员对应的指定人员音频;
所述初始匹配模型包括时延神经网络层、通道注意力机制层、多尺度特征融合层和注意力机制的池化层,所述通道注意力机制层包括Squeeze-and-Excitation模块与一维的Res2Net层。
4.根据权利要求1所述的方法,其特征在于,所述对所述指定人员音频进行降噪处理,以得到目标音频,具体包括:
获取第三数据集,并通过所述第三数据集训练初始降噪模型,以得到降噪模型;
将所述指定人员音频输入至所述降噪模型,以得到所述目标音频;
所述初始降噪模型包括第二编码器、第二解码器、注意力模块以及循环模块,所述第二编码器以及所述第二解码器中包括多个卷积循环模块。
5.根据权利要求1所述的方法,其特征在于,所述对所述指定人员音频进行降噪处理,具体包括:
对所述指定人员音频进行第一降噪处理,以得到中间音频;
确定所述中间音频的人声纯净度,判断所述人声纯净度是否低于预设阈值,若低于,则将所述中间音频进行第二降噪处理,直至所述中间音频的人声纯净度高于所述预设阈值。
6.根据权利要求1所述的方法,其特征在于,所述对所述场景音频进行语音分离之前,所述方法还包括:
对所述场景音频进行预处理,所述预处理过程包括:
对所述场景音频进行分帧、预加重、加窗操作,以得到中间语音帧;
将所述中间语音帧经过快速傅里叶变换得到对应的第一幅度谱和第一相位谱;
对所述第一幅度谱和所述第一相位谱取绝对值,获得第二幅度谱;
对所述第二幅度谱经过Mel滤波变换得到梅尔谱,并将结果取对数得到对数梅尔谱。
7.根据权利要求1所述的方法,其特征在于,所述得到目标音频之后,所述方法还包括:
接收来自于用户的文本转换请求,并根据所述文本转换请求将所述目标音频输出为指定格式的文本文档。
8.一种基于声纹识别的语音降噪装置,其特征在于,包括:
获取模块,获取指定人员的声纹模板信息,以及包括所述指定人员语音的场景音频;
分离模块,对所述场景音频进行语音分离,以得到多个单一人员分别对应的人员音频,所述人员音频中包括场景噪音;
匹配模块,通过对所述人员音频以及所述声纹模板信息进行匹配,以确定所述指定人员对应的指定人员音频;
降噪模块,对所述指定人员音频进行降噪处理,以得到目标音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东新一代信息产业技术研究院有限公司,未经山东新一代信息产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310267948.2/1.html,转载请声明来源钻瓜专利网。