[发明专利]多模态语音识别模型的训练方法、语音识别方法及设备在审
申请号: | 202210235261.6 | 申请日: | 2022-03-11 |
公开(公告)号: | CN114724548A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 张自强;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/183;G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张博 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 语音 识别 模型 训练 方法 设备 | ||
本发明公开了一种多模态语音识别模型的训练方法,包括:利用多模态语言识别模型处理无标签的音视频数据,得到无标签的音视频特征;利用跨模态采样机制对无标签的音视频特征进行采样,得到样本表征;利用多模态语音识别模型处理无标签的音视频特征,得到无标签的融合表征;利用预训练损失函数处理无标签的融合表征和样本表征并根据预训练损失值优化多模态语音识别模型;根据预设任务需求,利用多模态语音识别模型处理带标签的音视频数据,得到带标签的融合表征;利用微调损失函数处理带标签的融合表征并根据微调损失值优化多模态语音识别模型;迭代进行预训练优化操作和微调优化操作,直到微调损失值满足预设条件,得到训练完成的多模态语音识别模型。
技术领域
本发明涉及语音信号处理领域,具体涉及一种多模态语音识别模型的训练方法、语音识别方法、电子设备及存储介质。
背景技术
深度学习的发展带来语音识别技术的飞速发展,但单一模态下的系统仍然存在一些固有的问题,比如自动语音识别(Automatic Speech Recognition,ASR)对噪声的容忍性不足,噪声污染严重时性能大幅度下降,声音缺失时也无法补足这一缺失的信息。视频语音识别,或称唇语识别(Visual Speech Recognition,VSR)存在同音异意词的现象,相同的唇形可能代表了不同的单词发音,同一个单词发音也可能有不同的唇形序列,针对单一模态下存在的不足,音视频语音识别(Audio-Visual Speech Recognition,AVSR)被提出。
此外,现有技术中,对于音视频语音识别来说,需要大量的人工标注数据,而标注数据相当耗时且昂贵。同时,在现有技术中采用无监督音视频表征学习的方法存在各种问题:首先,采用无监督音视频表征学习的模型大多学习,比如像声音事件分类场景中的短时实例级表征,这样的学习目标可能不适合语音识别,因为语音识别需要帧级别连续变化并包含长期上下文依赖性的序列表征。其次,音频表征和视频表征是分别提取的。尽管可以通过损失函数联合优化单个模态表征,但缺乏中间交互限制了跨模态的信息流。
发明内容
有鉴于此,本发明提供了一种多模态语音识别模型的训练方法、语音识别方法、电子设备及存储介质,以期至少解决上述技术问题之一。
根据本发明实施例,提供了一种多模态语音识别模型的训练方法,包括:
利用多模态语言识别模型处理无标签的音视频数据,得到无标签的音视频特征,其中,音视频特征包括音频特征和视频特征;
利用跨模态采样机制对无标签的音视频特征进行采样,得到样本表征;
利用多模态语音识别模型处理无标签的音视频特征,得到无标签的融合表征;
利用预训练损失函数处理无标签的融合表征和样本表征,并根据预训练损失值优化多模态语音识别模型;
根据预设任务需求,利用多模态语音识别模型处理带标签的音视频数据,得到带标签的融合表征,其中,预设任务需求包括时序任务和非时序任务;
利用微调损失函数处理带标签的融合表征,并根据微调损失值优化多模态语音识别模型;
迭代进行预训练优化操作和微调优化操作,直到微调损失值满足预设条件,得到训练完成的多模态语音识别模型。
根据本发明实施例,上述利用多模态语音识别模型处理无标签的音视频数据,得到无标签的音视频特征包括:
利用多模态语音识别模型的视频编码器模块提取无标签的音视频数据的视频特征;
利用多模态语音识别模型的音频编码器模块提取无标签的音视频数据的音频特征。
根据本发明实施例,上述利用多模态语音识别模型处理无标签的音视频特征,得到无标签的融合表征包括:
对音视频特征进行向量掩蔽运算,得到掩蔽后的音视频特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210235261.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种污水处理方法
- 下一篇:基于物联网和大数据的安全系统