[发明专利]来自视频的同步声音生成在审

申请号：	202080051824.5	申请日：	2020-07-14
公开（公告）号：	CN114127847A	公开（公告）日：	2022-03-01
发明（设计）人：	张阳;淦创;刘思佳;王大阔	申请（专利权）人：	国际商业机器公司
主分类号：	G10L25/30	分类号：	G10L25/30;G10L25/57;H04N21/234;H04N21/25;H04N21/266;H04N21/81;H04N21/845;H04N21/854;G06N3/04;G06N3/08
代理公司：	北京市金杜律师事务所 11256	代理人：	酆迅;姚杰
地址：	美国纽***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	来自视频同步声音生成
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

计算设备接收视频馈送。视频馈送被划分成视频片段序列。针对每个视频片段，提取该视频片段的视觉特征。基于所提取的视觉特征产生预测频谱图。从预测频谱图产生合成音频波形。视频馈送的所有合成音频波形被连接以生成与视频馈送同步的合成音轨。

技术领域

本公开总体上涉及计算机和计算机应用，并且更具体地涉及从视频的自动声音生成。

相关技术的描述

近年来，媒体内容已经变得普遍存在，因为它在各种平台上可获得，并且来自越来越多的来源。例如，不同平台可包括互联网、电影、电视、收音机、智能电话、音频CD、书籍、电子书、杂志、和现场事件，诸如演讲、会议和舞台表演。通常，基于视频内容的媒体内容可能错过音频内容的与其对应的某些部分。例如，视频内容可能未用合适的麦克风记录，其中视频内容中缺少部分或全部声音。

发明内容

根据不同示范性实施例，提供一种使视频流适于包括合成音频流的计算设备、非暂态计算机可读存储介质和方法。视频馈送被接收并被分成视频片段序列。对于每个视频片段，提取视觉特征。基于所提取的视觉特征产生预测频谱图。从预测频谱图产生合成音频波形。视频馈送的所有合成音频波形被连接以生成与视频馈送同步的合成音轨。

在一个实施例中，每个视频片段是一个视频帧。

在一个实施例中，提取该视频片段中的视觉特征包括标识该视频片段的一个或多个主题。

在一个实施例中，视频片段的视觉特征包括主视觉特征和一个或多个非主视觉特征。可以强调与主要特征相关联的合成音频波形，而可以不强调与一个或多个非主要视觉特征相关联的每个合成音频波形。

在一个实施例中，基本上实时地执行该确定。

在一个实施例中，产生预测频谱图包含将所提取的视觉特征提供到生成器中，生成器操作以基于所提取的视觉特征产生预测频谱图。生成器网络可在训练阶段期间被训练，包括：接收包括一个或多个历史视频馈送的历史数据；对于每一历史视频馈送，以及将历史视频馈送划分成视频片段序列。对于历史视频馈送的每个视频片段，提取视频片段中的视觉特征。基于所提取的视觉特征产生预测的频谱图。鉴别器网络将真实频谱图与预测频谱图进行比较以识别相似度水平。一旦确定相似性水平高于预定阈值，就将所预测的频谱图识别为所提取的视觉特征的有效表示。

在一个实施例中，计算设备是用户设备。存在耦合到处理器的相机并且从相机接收视频馈送。

从以下将结合附图阅读的对其说明性实施例的详细描述，这些和其他特征将变得显而易见。

附图说明

附图是说明性实施例。它们没有示出所有实施例。另外或替代地，可使用其他实施例。可省略明显或不必要的细节以节省空间或用于更有效说明。一些实施例可用附加的组件或步骤和/或不用示出的所有组件或步骤来实践。当在不同的附图中出现相同的数字时，它指代相同或相似的部件或步骤。

图1是根据说明性实施例的自动生成视频流的合成音频轨道的系统的示例架构。

图2是示出了与说明性实施例一致的在高层级的示例用户设备的各组件的框图。

图3示出了从视频馈送生成原始音频的简化概念框图。

图4A和4B分别是辨别架构和生成架构的示例框图。

图5是与说明性实施例一致的包括与鉴别器网络交互的生成对手网络的示例神经网络的概念框图。

图6是根据说明性实施例的视觉到声音系统的概念框图。

图7呈现了用于自动适配视频内容以包括与其基本上同步的合成音频流的说明性过程。

图8呈现了迭代训练阶段的说明性过程。