[发明专利]用于单通道的语音识别模型的优化方法及系统有效
申请号: | 201910511791.7 | 申请日: | 2019-06-13 |
公开(公告)号: | CN110246487B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 钱彦旻;张王优;常煊恺 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G06N3/08;G06N3/02 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 通道 语音 识别 模型 优化 方法 系统 | ||
本发明实施例提供一种用于单通道的语音识别模型的优化方法。该方法包括:接收各带有真实标签向量的单人语音,多人混合语音,将从各单人语音提取的语音特征输入至目标教师模型,得到各单人语音对应的目标软标签向量;将多人混合语音输入至端到端学生模型,确定输出排列;根据确定输出排列的多人混合语音内每个人的输出标签向量,确定知识蒸馏损失和直接损失;当根据知识蒸馏损失和直接损失确定的联合误差未收敛时,根据联合误差对端到端学生模型进行优化。本发明实施例还提供一种用于单通道的语音识别模型的优化系统。本发明实施例能够更容易学习出好的参数,同时模型较为精简,更好的参数使其训练的学生模型有着更好的性能。
技术领域
本发明涉及语音识别领域,尤其涉及一种用于单通道的语音识别模型的优化方法及系统。
背景技术
随着智能语音的发展,越来越多设备都具备了语音识别的功能,但由于考虑到不同设备的使用场景,在设备制造时,有的设备仅搭载单个麦克风,有的设备搭载有多个麦克风,也就是所谓的单通道、多通道。由于只有单麦克风,因此,这类设备在处理类似于宴会类型的、有多个人同时讲话混合在一起的语音对话时,识别的性能较差。为此通常会使用:基于双向长短期记忆网络-循环神经网络的单通道多说话人语音识别的知识蒸馏方法,或端到端单通道多说话人语音识别系统来进行训练。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
基于双向长短期记忆网络-循环神经网络的单通道多说话人语音识别的知识蒸馏方法:采用的模型属于传统方法,相较于端到端模型更为复杂,训练过程繁琐;而端到端单通道多说话人语音识别系统:由于同时存在多人说话的语音信号,该模型仅能利用混合语音的信息,在训练时缺少单个说话人的语音信息,较难训练出好的效果,与单说话人语音识别系统相比性能差距较大。
发明内容
为了至少解决现有技术中传统模型较为复杂,训练过程繁琐,训练效果不佳、性能较差的问题。
第一方面,本发明实施例提供一种用于单通道的语音识别模型的优化方法,包括:
接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;
将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;
根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接损失;
当根据所述知识蒸馏损失和直接损失确定的联合误差未收敛时,根据所述联合误差对所述端到端学生模型进行反向传播,以更新所述端到端学生模型,直至所述联合误差收敛,确定优化后的用于单通道的语音识别学生模型。
第二方面,本发明实施例提供一种用于单通道的语音识别模型的优化系统,包括:
目标软标签确定程序模块,用于接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;
输出排列确定程序模块,用于将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;
损失确定程序模块,用于根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接损失;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910511791.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像加密方法及装置
- 下一篇:一种基于时变参数的自适应回声消除方法