[发明专利]一种说话视频的处理方法及装置、设备和存储介质有效
申请号: | 201810601813.4 | 申请日: | 2018-06-12 |
公开(公告)号: | CN108962216B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 周航;刘宇;刘子纬;罗平;王晓刚 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L17/04;G10L17/18;H04N5/265;G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 黄娟;张颖玲 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 视频 处理 方法 装置 设备 存储 介质 | ||
本发明实施例提供一种说话视频的处理方法及装置、设备和存储介质,其中,所述方法包括:获取包含图像的第一文件和包含音频的第二文件;将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型,得到合成的说话视频,其中,所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间;输出所述合成的说话视频。
技术领域
本发明实施例涉及计算机视觉通信领域,涉及但不限于一种说话视频的处理方法及装置、设备和存储介质。
背景技术
说话视频生成,是指根据一张输入人脸图片和一段音频,生成与这段音频相同步的该人物说话的视频。说话人脸生成本身就是计算机视觉和图形学中的重要问题,此外还有多媒体用户交互,伪造视频等多方面的实际应用。
现有技术中说话视频生成方法大多依赖计算机图形学对特定的说话者建模,从而需要一个特定人物的视频进行训练而无法做到只针对一张图像进行视频生成。近期使用深度学习的方法则直接将图像和音频进行编码并联合解码进行视频生成,可以达到对应的目的。但缺乏对图像和音频特征编码明确的指导,导致生成的视频的嘴型或图像质量受到影响,不能够为用户显示质量较佳的说话视频。
发明内容
有鉴于此,本发明实施例提供一种说话视频的处理方法及装置、设备和存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种说话视频的处理方法,所述方法包括:
获取包含图像的第一文件和包含音频的第二文件;
将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型,得到合成的说话视频,其中,所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间;
输出所述合成的说话视频。
在本发明实施例中,所述第一文件至少包括以下一种:图像、视频;所述第二文件至少包括以下一种:音频、有声视频。
在本发明实施例中,所述说话视频合成模型的训练过程,包括:
获取图像与音频匹配的训练样本;
确定所述训练样本的身份子空间和所述训练样本的话语子空间;
确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征;
利用所述音频特征和所述话语特征对所述训练样本的身份子空间解离语音信息,得到所述解离后的身份子空间;
利用人脸身份特征对所述训练样本的话语子空间解离人物身份信息,得到所述解离后的话语子空间。
在本发明实施例中,所述确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征,包括:
针对所述训练样本的每一帧;
将所述帧图像编码到所述训练样本的身份子空间,得到人脸身份特征向量;
将所述帧图像编码到所述训练样本的话语子空间,得到话语特征向量;
将所述帧图像对应的语音信息,编码到所述训练样本的话语子空间,得到音频特征向量。
在本发明实施例中,所述利用所述音频特征和所述话语特征对所述训练样本的身份子空间解离语音信息,得到所述解离后的身份子空间,包括:通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息,得到所述解离后的身份子空间;
所述利用人脸身份特征对所述训练样本的话语子空间解离人物身份信息,得到所述解离后的话语子空间,包括:通过鉴别器利用所述人脸身份特征向量从所述训练样本的话语子空间中去除人物身份信息,得到所述解离后的话语子空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810601813.4/2.html,转载请声明来源钻瓜专利网。