[发明专利]用于视频场景的上下文信息预测模型的训练方法及系统有效
申请号: | 202010680970.6 | 申请日: | 2020-07-15 |
公开(公告)号: | CN111883105B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 钱彦旻;李晨达 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/187;G06N3/08 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种用于视频场景的上下文信息预测模型的训练方法。该方法包括:通过端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征;将混合音频的幅度谱、以及第一说话人的第一视觉表示信息以及第二说话人的第二视觉表示信息,作为上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;基于第一理想上下文特征以及第二理想上下文特征与第一预测上下文特征以及第二预测上下文特征的误差对上下文信息预测模型训练。本发明实施例还提供一种用于视频场景的上下文信息预测模型的训练系统。本发明实施例提升语音分离的性能。 | ||
搜索关键词: | 用于 视频 场景 上下文 信息 预测 模型 训练 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010680970.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑用墙壁水泥抹灰找平装置
- 下一篇:一种脂质体-DNA复合体及其应用