[发明专利]视听语音分离在审
申请号: | 201880034995.X | 申请日: | 2018-11-21 |
公开(公告)号: | CN110709924A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 因巴尔·莫塞里;迈克尔·鲁宾施泰因;阿瑞尔·埃弗拉特;威廉·弗里曼;奥兰·朗;凯文·威廉·威尔逊;塔利·德克尔;阿维纳坦·哈西迪姆 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L17/18 | 分类号: | G10L17/18 |
代理公司: | 11219 中原信达知识产权代理有限责任公司 | 代理人: | 李宝泉;任庆威 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 用于视听语音分离的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法包括:对于来自已经检测到一个或多个说话者的面部的视频中的帧流中的每个帧,获得每个说话者的面部的相应的每帧面部嵌入;对于每个说话者,处理说话者的面部的每帧面部嵌入以生成说话者的面部的视觉特征;获得视频的音频声道的频谱图;处理频谱图以生成音频声道的音频嵌入;将一个或多个说话者的视觉特征与音频声道的音频嵌入相结合,以生成视频的视听嵌入;为一个或多个说话者中的每一个确定相应的频谱图掩模;确定每个说话者的相应的隔离语音频谱图。 | ||
搜索关键词: | 说话 嵌入 音频声道 频谱图 视频 视觉特征 计算机存储介质 计算机程序 视听语音 语音频谱 掩模 视听 隔离 检测 | ||
【主权项】:
1.一种方法,包括:/n对于来自已经检测到一个或多个说话者的面部的视频的帧流中的每个帧,获得每个说话者的面部的相应的每帧面部嵌入;/n对于每个说话者,使用视频卷积神经网络处理所述说话者的面部的每帧面部嵌入,以生成所述说话者的面部的视觉特征;/n获得所述视频的音频声道的频谱图;/n使用音频卷积神经网络处理所述频谱图,以生成所述音频声道的音频嵌入;/n将所述一个或多个说话者的视觉特征与所述音频声道的音频嵌入相结合,以生成所述视频的视听嵌入;/n从所述视频的视听嵌入确定所述一个或多个说话者中的每一个的相应的频谱图掩模;以及/n从相应的频谱图掩模和对应的音频声道确定隔离所述视频中说话者的语音的每个说话者的相应的隔离语音频谱图。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201880034995.X/,转载请声明来源钻瓜专利网。
- 上一篇:语音内容记录系统、方法以及记录介质
- 下一篇:用于音频编码或解码的方法及装置