[发明专利]视听语音分离在审

申请号：	201880034995.X	申请日：	2018-11-21
公开（公告）号：	CN110709924A	公开（公告）日：	2020-01-17
发明（设计）人：	因巴尔·莫塞里;迈克尔·鲁宾施泰因;阿瑞尔·埃弗拉特;威廉·弗里曼;奥兰·朗;凯文·威廉·威尔逊;塔利·德克尔;阿维纳坦·哈西迪姆	申请（专利权）人：	谷歌有限责任公司
主分类号：	G10L17/18	分类号：	G10L17/18
代理公司：	11219 中原信达知识产权代理有限责任公司	代理人：	李宝泉;任庆威
地址：	美国加利***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：	用于视听语音分离的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。方法包括：对于来自已经检测到一个或多个说话者的面部的视频中的帧流中的每个帧，获得每个说话者的面部的相应的每帧面部嵌入；对于每个说话者，处理说话者的面部的每帧面部嵌入以生成说话者的面部的视觉特征；获得视频的音频声道的频谱图；处理频谱图以生成音频声道的音频嵌入；将一个或多个说话者的视觉特征与音频声道的音频嵌入相结合，以生成视频的视听嵌入；为一个或多个说话者中的每一个确定相应的频谱图掩模；确定每个说话者的相应的隔离语音频谱图。
搜索关键词：	说话嵌入音频声道频谱图视频视觉特征计算机存储介质计算机程序视听语音语音频谱掩模视听隔离检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种方法，包括：/n对于来自已经检测到一个或多个说话者的面部的视频的帧流中的每个帧，获得每个说话者的面部的相应的每帧面部嵌入；/n对于每个说话者，使用视频卷积神经网络处理所述说话者的面部的每帧面部嵌入，以生成所述说话者的面部的视觉特征；/n获得所述视频的音频声道的频谱图；/n使用音频卷积神经网络处理所述频谱图，以生成所述音频声道的音频嵌入；/n将所述一个或多个说话者的视觉特征与所述音频声道的音频嵌入相结合，以生成所述视频的视听嵌入；/n从所述视频的视听嵌入确定所述一个或多个说话者中的每一个的相应的频谱图掩模；以及/n从相应的频谱图掩模和对应的音频声道确定隔离所述视频中说话者的语音的每个说话者的相应的隔离语音频谱图。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201880034995.X/，转载请声明来源钻瓜专利网。

上一篇：语音内容记录系统、方法以及记录介质
下一篇：用于音频编码或解码的方法及装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]视听语音分离在审

专利文献下载