[发明专利]语音识别方法、装置、计算机设备及存储介质在审
申请号: | 202110470112.3 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113192492A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 王瑞璋;魏韬;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518057 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种语音识别方法、装置、计算机设备及存储介质,该方法包括:获取训练数据,包括标准普通话训练数据和非标准普通话训练数据;将标准普通话训练数据输入主神经网络进行训练获得普通话声学模型;在普通话声学模型中增加分支神经网络;将标准普通话训练数据和非标准普通话训练数据输入普通话声学模型进行多任务训练;对普通话声学模型进行模型更新,生成初始声学模型;将训练数据输入初始声学模型进行训练,获得目标声学模型;将语音信息输入至目标声学模型中得到语音信息的语义信息,不仅提高了ASR识别效率;并且也避免了由于口音识别错误而影响ASR识别的准确性。本申请还涉及区块链技术,目标声学模型可以存储在区块链节点中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
对于电话客服场景,普通话ASR(Automatic Speech Recognition,自动语音识别技术)受口音影响的情况很普遍。为了解决这一问题,传统方法一般是为不同口音提供专用声学模型,整个ASR系统包含多种口音的专用声学模型,同时前端配置口音识别模块。这种ASR系统复杂度太高,时延高,影响了ASR识别的效率;并且,口音识别错误也会影响ASR识别的准确性。
因此,如何提高ASR识别效率及准确性成为亟待解决的问题。
发明内容
本申请提供了一种语音识别方法、装置、计算机设备及存储介质,能够实现提高ASR识别效率及准确性。
第一方面,本申请提供了一种语音识别方法,所述方法包括:
获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
将所述标准普通话训练数据输入主神经网络进行训练,获得普通话声学模型;
在所述普通话声学模型中增加分支神经网络,其中,所述分支神经网络包括多个网络层,每个所述网络层的网络层信息与所述主神经网络中对应网络层的网络层信息一致;
将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,获得多任务训练后的所述普通话声学模型;
对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型;
将所述训练数据输入所述初始声学模型进行训练,获得对应的目标声学模型;
获取待识别的语音信息,将所述语音信息输入至所述目标声学模型中得到所述语音信息的语义信息,其中,所述语音信息包含标准普通话和/或非标准普通话。
第二方面,本申请还提供了一种语音识别装置,所述装置包括:
数据获取模块,用于获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
第一模型训练模块,用于将所述标准普通话训练数据输入主神经网络进行训练,获得普通话声学模型;
第一模型处理模块,用于在所述普通话声学模型中增加分支神经网络,其中,所述分支神经网络包括多个网络层,每个所述网络层的网络层信息与所述主神经网络中对应网络层的网络层信息一致;
第二模型训练模块,用于将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,获得多任务训练后的所述普通话声学模型;
第二模型处理模块,用于对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型;
第三模型训练模块,用于将所述训练数据输入所述初始声学模型进行训练,获得对应的目标声学模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110470112.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种板材的处理系统
- 下一篇:目标操作函数的生成方法和装置