[发明专利]视听语音分离在审
申请号: | 201880034995.X | 申请日: | 2018-11-21 |
公开(公告)号: | CN110709924A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 因巴尔·莫塞里;迈克尔·鲁宾施泰因;阿瑞尔·埃弗拉特;威廉·弗里曼;奥兰·朗;凯文·威廉·威尔逊;塔利·德克尔;阿维纳坦·哈西迪姆 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L17/18 | 分类号: | G10L17/18 |
代理公司: | 11219 中原信达知识产权代理有限责任公司 | 代理人: | 李宝泉;任庆威 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 嵌入 音频声道 频谱图 视频 视觉特征 计算机存储介质 计算机程序 视听语音 语音频谱 掩模 视听 隔离 检测 | ||
用于视听语音分离的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法包括:对于来自已经检测到一个或多个说话者的面部的视频中的帧流中的每个帧,获得每个说话者的面部的相应的每帧面部嵌入;对于每个说话者,处理说话者的面部的每帧面部嵌入以生成说话者的面部的视觉特征;获得视频的音频声道的频谱图;处理频谱图以生成音频声道的音频嵌入;将一个或多个说话者的视觉特征与音频声道的音频嵌入相结合,以生成视频的视听嵌入;为一个或多个说话者中的每一个确定相应的频谱图掩模;确定每个说话者的相应的隔离语音频谱图。
相关申请的交叉引用
本申请要求于2017年11月22日提交的临时申请No.62/590,190的优先权,其全部内容通过引用合并于此。
背景技术
本说明书涉及用于训练和使用神经网络来执行自动语音分离的系统和方法。
神经网络是机器学习模型,它使用一个或多个层非线性单元来预测接收到的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出都用作网络中下一层(即,下一个隐藏层或输出层)的输入。网络的每一层根据相应组参数的当前值从接收的输入生成输出。
一些神经网络是递归神经网络。递归神经网络是一种神经网络,它接收输入序列并从输入序列生成输出序列。特别地,递归神经网络可以在计算当前时间步长的输出时使用来自先前时间步长的网络的部分或全部内部状态。递归神经网络的一个示例是长短期记忆(LSTM)神经网络,其中包括一个或多个LSTM存储块。每个LSTM存储块可以包括一个或多个单元,每个单元包括输入门、遗忘门和输出门,允许该单元存储该单元的先前状态(例如,用于生成电流激活或要提供到LSTM神经网络的其他组件)。双向LSTM神经网络是一种LSTM神经网络,其中每个LSTM存储块都包含一个或多个单元,可以存储该单元的将来状态以及以前的状态。也就是说,当处理来自输入序列的给定输入时,双向LSTM神经网络使用输入序列中给定输入之前和给定输入之后的两个输入的上下文。
一些神经网络是包括一个或多个卷积层的卷积神经网络。卷积层通常是稀疏连接的神经网络层。也就是说,卷积层中的每个节点都从前一神经网络层中一部分节点(即少于所有节点)接收输入,或者,如果卷积层是序列中的最低层,则卷积层中的每个节点接收神经网络的一部分输入,并根据输入生成激活。通常,卷积层具有通过根据每个节点的一组权重对接收到的输入进行卷积来生成激活的节点,称为过滤器。在某些情况下,卷积层中的节点可以被配置为共享过滤器。即,该层中的全部或一部分节点可以被约束为总是具有与该层中的其他节点相同的权重值。
扩张卷积神经网络是一种卷积神经网络,它根据扩张因子通过修改节点的卷积算子以将过滤器应用于不同范围的输入,从而一次对接收到的输入的较大部分进行卷积。例如,与同一图像的典型卷积相比,由像素表示的输入图像的扩张卷积将像素卷积得彼此距离更远。与卷积神经网络中的节点相比,具有给定大小的过滤器的扩张卷积神经网络中的节点比标准卷积层中具有相同大小的过滤器的节点一次卷积输入的更大部分。
发明内容
本说明书描述了一种实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统,该系统接收一个或多个说话者的输入视频并对于每个说话者生成隔离的语音信号,其中只有相应说话者的语音可以被听到。
根据一个方面,提供了一种方法,该方法包括:对于来自已经检测到一个或多个说话者的面部的视频的帧流中的每个帧,获得每个说话者的面部的相应的每帧面部嵌入;对于每个说话者使用视频卷积神经网络处理说话者面部的每帧面部嵌入,以生成说话者面部的视觉特征;获得所述视频的音频声道的频谱图;使用音频卷积神经网络处理所述频谱图,以生成所述音频声道的音频嵌入;将一个或多个说话者的视觉特征与所述音频声道的音频嵌入相结合,以生成所述视频的视听嵌入;从所述视频的视听嵌入中,对于所述一个或多个说话者中的每一个确定各自的频谱图掩模;以及从相应的频谱图掩模和相应的音频声道中,确定隔离所述视频中说话者的语音的每个说话者的相应的隔离语音频谱图。
该方法可以进一步包括以下特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880034995.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音内容记录系统、方法以及记录介质
- 下一篇:用于音频编码或解码的方法及装置