[发明专利]一种说话视频的处理方法及装置、设备和存储介质有效

申请号：	201810601813.4	申请日：	2018-06-12
公开（公告）号：	CN108962216B	公开（公告）日：	2021-02-02
发明（设计）人：	周航;刘宇;刘子纬;罗平;王晓刚	申请（专利权）人：	北京市商汤科技开发有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L17/04;G10L17/18;H04N5/265;G06K9/62
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	黄娟;张颖玲
地址：	100084 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种说话视频处理方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种说话视频的处理方法及装置、设备和存储介质，其中，所述方法包括：获取包含图像的第一文件和包含音频的第二文件；将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间；输出所述合成的说话视频。

技术领域

本发明实施例涉及计算机视觉通信领域，涉及但不限于一种说话视频的处理方法及装置、设备和存储介质。

背景技术

说话视频生成，是指根据一张输入人脸图片和一段音频，生成与这段音频相同步的该人物说话的视频。说话人脸生成本身就是计算机视觉和图形学中的重要问题，此外还有多媒体用户交互，伪造视频等多方面的实际应用。

现有技术中说话视频生成方法大多依赖计算机图形学对特定的说话者建模，从而需要一个特定人物的视频进行训练而无法做到只针对一张图像进行视频生成。近期使用深度学习的方法则直接将图像和音频进行编码并联合解码进行视频生成，可以达到对应的目的。但缺乏对图像和音频特征编码明确的指导，导致生成的视频的嘴型或图像质量受到影响，不能够为用户显示质量较佳的说话视频。

发明内容

有鉴于此，本发明实施例提供一种说话视频的处理方法及装置、设备和存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种说话视频的处理方法，所述方法包括：

获取包含图像的第一文件和包含音频的第二文件；

将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间；

输出所述合成的说话视频。

在本发明实施例中，所述第一文件至少包括以下一种：图像、视频；所述第二文件至少包括以下一种：音频、有声视频。

在本发明实施例中，所述说话视频合成模型的训练过程，包括：

获取图像与音频匹配的训练样本；

确定所述训练样本的身份子空间和所述训练样本的话语子空间；

确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征；