[发明专利]训练语音增广模型的方法和装置有效
申请号: | 202110607065.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113314107B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 钱彦旻;王巍;张王优;李晨达 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L21/0216 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 语音 增广 模型 方法 装置 | ||
本发明公开训练语音增广模型的方法和装置,其中,一种训练语音增广模型的方法,包括:使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;利用训练后的所述教师模型对真实语音数据进行标注;以及使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。本申请实施例提供的上述方法不仅提高了对模拟数据的语音增强性能,而且降低了下游语音识别任务的单词错误率。
技术领域
本发明属于模型训练技术领域,尤其涉及训练语音增广模型的方法和装置。
背景技术
相关技术中,许多与语音相关的应用程序,例如自动语音识别(automatic speechrecognition,ASR)和说话人验证,都需要语音增强(speech enhancement,SE)作为必不可少的前端,以提高降级语音信号的清晰度和感知质量。尽管已经做出了许多努力来构建最新的语音增强模型,但是在处理真实数据时,单通道语音增强仍然具有挑战性。
语音增强的挑战之一是训练条件和评估条件之间的差异。与诸如语音识别和说话人识别之类的下游任务不同,后者可以很容易地为真实世界的数据标注地面真相标签,而在收集真实世界的数据时,通常无法使用语音增强中的并行纯净语音信号。因此,大多数语音增强系统必须建立在模拟语音数据上。然而,仿真过程通常只覆盖有限的噪声条件和类型,这可能导致在看不见的噪声条件下性能下降。
为了减轻培训训练和评估之间的不匹配,已经进行了许多尝试,它们可以分为五个主要类别。(1)数据扩充:已经探索了各种数据增强策略,例如收集用于训练的大规模真实噪声,噪声扰动以及基于一组精心设计的噪声基础生成噪声。(2)噪声建模:已经探索了噪声建模的各个方向,以在模型设计或训练过程中明确地利用噪声信息。例如,现有技术中提出将预测的噪声信息合并到语音估计中。现有技术中提出通过领域对抗训练(domainadversarial training,DAT)来训练一个抗噪语音增强模型。现有技术中研究了通过添加噪声相关的损失来改善多任务损失下的语音增强。(3)基于生成对抗网络(Generativeadversarial networks,GANs)的方法:先前的工作已经研究了将GAN用于使用真实数据进行语音增强的情况。语音增强模型(作为生成器)将语音信号与嘈杂的输入分离开来,而鉴别器则试图将增强的信号与真实的纯净语音信号区分开。(4)对下游任务的端到端培训训练。许多先前的研究已经以端到端的方式研究了培训训练SE模型以及不同的下游任务。由于仅将下游任务中的最终损失用于训练整个系统,因此避免了对干净语音引用的依赖。(5)辅助信息。不仅仅是将音频信息用于语音增强,一些研究还集中在使用来自其他模态的辅助信息来改善语音增强。在语音增强中已经探索了不同的方式,包括说话人身份,文本信息和视觉线索。
其中,对抗神经网络包括一个生成器和一个鉴别器,生成器负责语音增强,鉴别器负责鉴别生成器产生的语音是带躁语音或干净语音,通过共同训练提高二者的能力,达到语音增强的目的。
噪声增广数据的方法通过将有限的噪声音频按不同信噪比,不同方式混入干净语音,模拟真实场景下的带躁语音训练增强模型。
发明人在实现本申请的过程中发现现有技术的方案存在以下缺陷:基于对抗神经网络的模型训练过程复杂,通常难以训练,需要精细调参。通过噪声增广数据的方法无法在真实数据上训练。具体地,对抗神经网络的缺陷来源于其模型设计,对抗训练的过程需要生成器和鉴别器的能力相对平衡。噪声增广数据的方法没有考虑利用真实数据训练增强模型,只希望通过噪声模拟真实场景。
发明内容
本发明实施例提供一种训练语音增广模型的方法和装置,用于至少解决上述技术问题之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110607065.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:蓝光3D打印机以及系统
- 下一篇:一种用于方钢卸载与堆积的专用吊装设备