[发明专利]用于视频场景的上下文信息预测模型的训练方法及系统有效
申请号: | 202010680970.6 | 申请日: | 2020-07-15 |
公开(公告)号: | CN111883105B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 钱彦旻;李晨达 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/187;G06N3/08 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 视频 场景 上下文 信息 预测 模型 训练 方法 系统 | ||
1.一种用于视频场景的上下文信息预测模型的训练方法,包括:
通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征;
将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱、以及所述第一说话人的第一视觉表示信息以及所述第二说话人的第二视觉表示信息,作为上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;
基于所述第一理想上下文特征以及所述第二理想上下文特征与所述第一预测上下文特征以及所述第二预测上下文特征的误差对所述上下文信息预测模型训练,直至所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述第一理想上下文特征以及所述第二理想上下文特征。
2.根据权利要求1所述的方法,其中,所述端到端语音识别编码器的数量与所述说话人的数量相同,其中,各端到端语音识别编码器共享权值。
3.根据权利要求1所述的方法,其中,所述第一视觉表示信息以及所述第二视觉表示信息包括:说话人嘴形区域的视频图像所提取的特征。
4.根据权利要求1所述的方法,其中,所述上下文信息预测模型包括:二维的类视觉组卷积网络、共享权值的一维深度残差网络、双向长短时记忆元循环神经网络。
5.一种上下文信息预测方法,包括:
将待分离混合语音的幅度谱输入至根据权利要求1所述的训练方法训练后的上下文信息预测模型,通过类视觉组卷积网络在时频维度上进行特征提取,以及在时间维度上进行下采样;
将特征提取以及采样后的幅度谱输入至深度残差网络,得到高维音频模态表示;
将待分离混合语音中第一说话人的第一视觉表示信息以及第二说话人的第二视觉表示信息输入至所述上下文信息预测模型,通过所述深度残差网络确定第一高维视觉模态表示以及第二高维视觉模态表示;
将所述高维音频模态表示、所述第一高维视觉模态表示以及所述第二高维视觉模态表示进行拼接,确定拼接模态表示;
将所述拼接模态表示输入至两个不同的双向长短时记忆元循环神经网络得到所述第一说话人的第一上下文信息表示以及所述第二说话人的第二上下文信息表示。
6.一种语音分离方法,包括:
将所述权利要求5确定的所述第一高维视觉模态表示、所述第二高维视觉模态表示、所述待分离混合语音的幅度谱、所述第一上下文信息表示以及所述第二上下文信息表示输入至语音分离系统,确定所述待分离混合语音的高维特征表示;
基于所述高维特征表示确定第一说话人的第一幅度谱遮掩以及第二幅度谱遮掩;
通过所述第一幅度谱遮掩以及第二幅度谱遮掩对所述待分离混合语音的幅度谱进行预测,确定所述第一说话人的分离语音以及第二说话人的分离语音。
7.根据权利要求6所述的方法,其中,所述语音分离系统包括注意力机制,以用于辅助预测语音分离。
8.一种用于视频场景的上下文信息预测模型的训练系统,包括:
理想上下文特征确定程序模块,用于通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征;
预测上下文特征确定程序模块,用于将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱、以及所述第一说话人的第一视觉表示信息以及所述第二说话人的第二视觉表示信息,作为上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;
训练程序模块,用于基于所述第一理想上下文特征以及所述第二理想上下文特征与所述第一预测上下文特征以及所述第二预测上下文特征的误差对所述上下文信息预测模型训练,直至所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述第一理想上下文特征以及所述第二理想上下文特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010680970.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑用墙壁水泥抹灰找平装置
- 下一篇:一种脂质体-DNA复合体及其应用