[发明专利]语音识别方法、装置、介质及电子设备有效
申请号: | 202010873809.0 | 申请日: | 2020-08-26 |
公开(公告)号: | CN111968647B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 殷翔 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;H04N21/4402 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 贾会玲 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 介质 电子设备 | ||
1.一种语音识别方法,其特征在于,包括:
获取目标视频数据,所述目标视频数据包括目标音频数据和目标图像数据;
将所述目标音频数据输入至语音识别模型中,以得到所述目标音频数据对应的第一文本数据;
将所述目标图像数据输入至描述信息生成模型中,以通过所述描述信息生成模型提取所述目标图像数据的特征信息,并根据所述特征信息,生成用于描述所述目标图像数据的第二文本数据;
根据所述第二文本数据,对所述第一文本数据进行修正,得到修正后的第一文本数据;
所述语音识别模型和所述描述信息生成模型通过如下方式训练得到:
获取第一参考文本数据;
通过将所述第一参考文本数据、所述语音识别模型的输出以及所述描述信息生成模型的输出作为语音合成模型的输入,将所述语音合成模型的输出作为所述语音识别模型的输入,将所述第一参考文本数据作为所述语音识别模型的目标输出,将所述第一参考文本数据、所述语音识别模型的输出以及所述描述信息生成模型的输出作为图像生成模型的输入,将所述图像生成模型的输出作为所述描述信息生成模型的输入,将所述第一参考文本数据作为所述描述信息生成模型的目标输出的方式进行模型训练,以得到所述语音识别模型和所述描述信息生成模型。
2.根据权利要求1所述的方法,其特征在于,在进行模型训练之前,所述方法还包括:
对所述语音识别模型和所述描述信息生成模型进行预训练。
3.根据权利要求2所述的方法,其特征在于,所述对所述语音识别模型和所述描述信息生成模型进行预训练,包括:
获取第二参考文本数据;
通过将所述第二参考文本数据和所述语音识别模型的输出作为所述语音合成模型的输入,将所述语音合成模型的输出作为所述语音识别模型的输入,将所述第二参考文本数据作为所述语音识别模型的目标输出的方式对所述语音识别模型进行预训练;
通过将所述第二参考文本数据、所述描述信息生成模型的输出以及预训练后所得的语音识别模型的输出作为所述图像生成模型的输入,将所述图像生成模型的输出作为所述描述信息生成模型的输入,将所述第二参考文本数据作为所述描述信息生成模型的目标输出的方式对所述描述信息生成模型进行预训练。
4.根据权利要求2所述的方法,其特征在于,所述对所述语音识别模型和所述描述信息生成模型进行预训练,包括:
获取第二参考文本数据;
通过将所述第二参考文本数据和所述描述信息生成模型的输出作为所述图像生成模型的输入,将所述图像生成模型的输出作为所述描述信息生成模型的输入,将所述第二参考文本数据作为所述描述信息生成模型的目标输出的方式对所述描述信息生成模型进行预训练;
通过将所述第二参考文本数据、所述语音识别模型的输出以及预训练后所得的描述信息生成模型的输出作为所述语音合成模型的输入,将所述语音合成模型的输出作为所述语音识别模型的输入,将所述第二参考文本数据作为所述语音识别模型的目标输出的方式对所述语音识别模型进行预训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010873809.0/1.html,转载请声明来源钻瓜专利网。