[发明专利]多任务语音识别模型训练方法、多任务语音识别方法有效
申请号: | 202011327809.7 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112331187B | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 赵飞;黄厚军;钱彦旻 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 语音 识别 模型 训练 方法 | ||
本发明公开一种多任务语音识别模型训练方法,其中多任务语音识别模型包括卷积层、最大池化层、线性变换层、映射层和多个子任务线性分类层,该方法包括:根据样本音频获取样本音频频谱特征;将样本音频频谱特征输入至卷积层进行卷积处理;通过最大池化层对卷积处理后的所述样本音频频谱特征进行最大池化操作以获得对应于样本音频的句子级别表征信息;通过线性池化层对句子级别表征信息进行线性变化;通过映射层根据线性变化结果对多个子任务线性分类层的参数进行更新。本发明在保证各个子任务性能的前提下,一个模型解决了语音中所包含的多种副信息识别问题,减少了服务端占用的内存和计算量,更加方便的服务用户,满足用户不同的需求。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多任务语音识别模型训练方法、多任务语音识别方法及电子设备。
背景技术
语音副信息识别指的是语音的性别识别、年龄识别、情感识别等。给定一段音频,通过这项技术来预测这段音频所包含的说话人的性别、年龄、以及情感内容。准确的语音副信息识别器在实际的生产生活中有很大的应用范围,包括电影电视的内容推荐,客服场景下客服服务质量的评测,智能音箱带情感的问答系统。
但是现有技术中的语音副信息识别器均是单任务单模型的形式,即音频同时输入多个不同模型(例如,性别识别模型、年龄识别模型和情感识别模型)然后输出多个不同模型的预测结果,导致计算量增加,延时增加。
发明内容
本发明实施例提供一种多任务语音识别模型训练方法、多任务语音识别方法及电子设备,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种多任务语音识别模型训练方法,所述多任务语音识别模型包括卷积层、最大池化层、线性变换层、映射层和多个子任务线性分类层,所述方法包括:
根据样本音频获取样本音频频谱特征;
将所述样本音频频谱特征输入至卷积层进行卷积处理;
通过所述最大池化层对卷积处理后的所述样本音频频谱特征进行最大池化操作以获得对应于所述样本音频的句子级别表征信息;
通过所述线性池化层对所述句子级别表征信息进行线性变化;
通过所述映射层根据线性变化结果对所述多个子任务线性分类层的参数进行更新。
第二方面,本发明实施例提供一种多任务语音识别方法,包括:接收将待识别音频;利用本发明任一实施例所述的多任务语音识别模型对所述待识别音频进行识别处理,以得到多种语音识别任务结果。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项多任务语音识别方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项多任务语音识别方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项多任务语音识别方法。
本发明实施例的有益效果在于:在保证各个子任务性能的前提下,一个模型解决了语音中所包含的多种副信息识别问题,减少了服务端占用的内存和计算量,更加方便的服务用户,满足用户不同的需求。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011327809.7/2.html,转载请声明来源钻瓜专利网。