[发明专利]视听语音分离在审
申请号: | 201880034995.X | 申请日: | 2018-11-21 |
公开(公告)号: | CN110709924A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 因巴尔·莫塞里;迈克尔·鲁宾施泰因;阿瑞尔·埃弗拉特;威廉·弗里曼;奥兰·朗;凯文·威廉·威尔逊;塔利·德克尔;阿维纳坦·哈西迪姆 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L17/18 | 分类号: | G10L17/18 |
代理公司: | 11219 中原信达知识产权代理有限责任公司 | 代理人: | 李宝泉;任庆威 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 嵌入 音频声道 频谱图 视频 视觉特征 计算机存储介质 计算机程序 视听语音 语音频谱 掩模 视听 隔离 检测 | ||
1.一种方法,包括:
对于来自已经检测到一个或多个说话者的面部的视频的帧流中的每个帧,获得每个说话者的面部的相应的每帧面部嵌入;
对于每个说话者,使用视频卷积神经网络处理所述说话者的面部的每帧面部嵌入,以生成所述说话者的面部的视觉特征;
获得所述视频的音频声道的频谱图;
使用音频卷积神经网络处理所述频谱图,以生成所述音频声道的音频嵌入;
将所述一个或多个说话者的视觉特征与所述音频声道的音频嵌入相结合,以生成所述视频的视听嵌入;
从所述视频的视听嵌入确定所述一个或多个说话者中的每一个的相应的频谱图掩模;以及
从相应的频谱图掩模和对应的音频声道确定隔离所述视频中说话者的语音的每个说话者的相应的隔离语音频谱图。
2.根据权利要求1所述的方法,进一步包括:
从所述一个或多个说话者中的特定一个说话者的相应的隔离语音频谱图生成所述特定说话者的隔离语音信号。
3.根据权利要求1或2所述的方法,其中,获得相应的每帧面部嵌入包括:
获得包括所述帧流的视频;
在所述帧流的每个帧中检测一个或多个说话者中的每一个的相应的面部;以及
对于每个帧,为每个检测到的面部生成相应的每帧面部嵌入。
4.根据前述权利要求中的任一项所述的方法,其中,将所述一个或多个说话者的视觉特征与所述音频声道的音频嵌入相结合以生成所述视频的视听嵌入包括:
将所述一个或多个说话者的视觉特征与所述音频声道的音频嵌入进行级联,以生成所述视频的视听嵌入。
5.根据前述权利要求中的任一项所述的方法,其中,从所述视频的视听嵌入确定所述一个或多个说话者中的每一个的相应的掩模包括:
使用掩蔽神经网络处理所述视频的视听嵌入,其中所述掩蔽神经网络被配置为:
处理所述视频的视听嵌入,以生成所述一个或多个说话者中的每一个的相应的频谱图掩模。
6.根据权利要求5所述的方法,其中,所述掩蔽神经网络包括一个或多个长短期记忆(LSTM)层,其后是一个或多个其他神经网络层。
7.根据权利要求6所述的方法,其中,所述一个或多个其他神经网络层包括一个或多个完全连接的层。
8.根据权利要求6或7所述的方法,其中,所述一个或多个LSTM层是双向LSTM层。
9.根据权利要求1所述的方法,进一步包括:
对于所述一个或多个说话者中的每一个,使用自动语音识别(ASR)模型处理所述说话者的隔离语音频谱图或从所述说话者的隔离语音频谱图得出的数据,以生成所述视频中的说话者的语音的转录。
10.一种训练视频卷积神经网络、音频卷积神经网络和掩蔽神经网络的方法,所述方法包括:
获得包括多个训练示例的训练数据,每个训练示例包括(i)相应的训练视频和(ii)所述相应的训练视频中的一个或多个说话者中的每一个的语音的真值隔离语音频谱图;以及
在所述训练数据上训练所述视频卷积神经网络、所述音频卷积神经网络和所述掩蔽神经网络。
11.根据权利要求10所述的方法,其中,获得所述训练数据包括对于所述训练示例中的每一个:
对于一个或多个说话者中的每一个,从清晰视频中获得所述说话者讲话的清晰视频和所述说话者的语音的相应清晰音频声道;
至少从所述一个或多个说话者的清晰视频和相应清晰音频声道中生成混合视频和混合音频声道;以及
通过对于所述一个或多个说话者中的每一个将所述混合视频与对应于所述说话者的语音的相应清晰音频声道的频谱图相关联,来生成所述训练示例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880034995.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音内容记录系统、方法以及记录介质
- 下一篇:用于音频编码或解码的方法及装置