[发明专利]基于元学习的自适应语音识别方法、装置、设备及介质在审
申请号: | 202011434900.9 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112562648A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 罗剑;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/065;G10L15/16;G10L15/22;G10L15/26 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 518000 广东省深圳市福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 自适应 语音 识别 方法 装置 设备 介质 | ||
本申请公开了一种基于元学习的自适应语音识别方法、装置、设备及介质,涉及人工智能技术领域,可以解决目前在对语音识别模型进行说话人自适应调节时,需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐、工作量较大,并且无法涵盖所有参数调整情况,进而导致语音识别效果不佳的问题。其中方法包括:利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。本申请适用于对语音的自适应识别。
技术领域
本申请涉及人工智能技术领域,尤其涉及到一种基于元学习的自适应语音识别方法、装置、设备及介质。
背景技术
随着深度学习的发展,自动语音识别系统取得了显著的效果,并被用于日常生活的各种场景。目前最广泛使用的语音识别应用是智能助理,用户可以通过语音自然地与机器进行交流,协助工作。然而智能助理服务面向的多数场景是单一用户,其语音识别针对的是单一说话人。此时自动语音识别系统的性能可以通过调整声学模型参数来补偿训练和测试条件之间的不匹配,从而来改善识别的效果。这种针对未知说话人调整已有参数的方法被称为说话人自适应方法。
有效的说话人自适应方法依赖于选择合适的声学模型参数和合适的参数更新规则,以避免在较少的训练数据上的过拟合。为了依据不同说话人进行声学模型参数的有效调整,目前主要采用人工设计调整准则(如设计调整步骤数,学习率等)的方式来进行。然而这种调整方式需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐,且工作量较大,并且无法涵盖所有参数调整情况,进而容易导致语音识别效果不佳。
发明内容
有鉴于此,本申请提供了一种基于元学习的自适应语音识别方法、装置、设备及介质,主要解决目前在对语音识别模型进行说话人自适应调节时,需要人工预先根据不同说话人类型进行调整准则的设计,设计过程繁琐、工作量较大,并且无法涵盖所有参数调整情况,进而导致语音识别效果不佳的问题。
根据本申请的一个方面,提供了一种基于元学习的自适应语音识别方法,该方法包括:
利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。
根据本申请的另一个方面,提供了一种基于元学习的自适应语音识别装置,其特征在于,包括:
训练模块,用于利用预处理后的样本语音数据训练语音识别模型以及元学习适应模型;
调整模块,用于基于所述元学习适应模型,将所述语音识别模型的初始模型参数调整为与目标语音类型匹配的目标模型参数;
识别模块,用于利用配置有所述目标模型参数的语音识别模型识别所述目标语音类型下的目标语音。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于元学习的自适应语音识别方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于元学习的自适应语音识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011434900.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旋转按键及其控制方法及可穿戴设备
- 下一篇:油箱自动标定方法及装置