[发明专利]从多个说话者中分离目标语音的方法和装置在审

申请号：	202110273782.6	申请日：	2021-03-12
公开（公告）号：	CN113808610A	公开（公告）日：	2021-12-17
发明（设计）人：	张世雄;徐勇;于蒙;俞栋	申请（专利权）人：	腾讯美国有限责任公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/028
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	陈美娥;王琦
地址：	美国加利福尼亚州***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	说话分离目标语音方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种从多个说话者中分离目标语音的方法和装置。该方法包括：接收与所述多个说话者相关联的视频数据；接收与至少一个说话者中的每个说话者相关联的音频数据；从所述接收的视频数据中提取视频特征数据；基于所述接收的音频数据和所述提取的视频特征数据从所述多个说话者中识别所述目标语音。

技术领域

本申请涉及计算领域，更具体地，涉及一种从多个说话者中分离目标语音的方法和装置、非易失性计算机可读介质以及计算机设备。

背景技术

目标语音分离从观察到的语音混合中提取感兴趣的语音。随着深度学习时代的到来，现有的大多数监督方法都是基于声谱图掩码(spectrogram masking)的，其中估计目标说话者在混合声谱图的每个时频(T-F)窗口(bin)处的权重(掩码)。结果，混合声谱图和预测掩码之间的乘积被用作目标语音声谱图。

发明内容

本申请实施例提供一种从多个说话者中分离目标语音的方法和装置、非易失性计算机可读介质以及计算机设备，旨在解决现有的纯音频方法在复杂的声学环境中经常会受到严重干扰，从而导致声学目标信息模糊的问题。

根据一个方面，提供一种从多个说话者中分离目标语音的方法，所述方法可以包括：接收与所述多个说话者相关联的视频数据；接收与至少一个说话者中的每个说话者相关联的音频数据；从所述接收的视频数据中提取视频特征数据；基于所述接收的音频数据和所述提取的视频特征数据从所述多个说话者中识别所述目标语音。

根据另一方面，提供一种从多个说话者中分离目标语音的装置，所述装置可以包括：第一接收模块，被配置为接收与所述多个说话者相关联的视频数据；第二接收模块，被配置为接收与至少一个说话者中的每个说话者相关联的音频数据；提取模块，被配置为从所述接收的视频数据中提取视频特征数据；识别模块，被配置为基于所述接收的音频数据和所述提取的视频特征数据从所述多个说话者中识别所述目标语音。

根据又一方面，提供一种非易失性计算机可读介质，其上存储计算机程序，当所述计算机程序被至少一个计算机处理器执行时，使得所述至少一个计算机处理器执行所述从多个说话者中分离目标语音的方法。

根据再一方面，提供一种计算机设备，包括至少一个处理器和至少一个存储器，所述至少一个存储器中存储有至少一条程序指令，所述至少一条程序指令由所述至少一个处理器加载并执行，以实现所述从多个说话者中分离目标语音的方法。

在本申请实施例中，利用多模态框架能够提取被噪声和混响损坏的同步视频和多通道音频中的目标说话者的语音，从而获得更完整、更稳健的目标声学表示。

附图说明

从下面结合附图对示例性实施例的详细描述中，本申请上述的和其它目的、特征和优点将变得显而易见。附图的各种特征未按比例绘制，因为图示是为了清楚起见，以便于本领域技术人员结合详细描述对本申请技术方案进行理解。在附图中：

图1示出了根据至少一个实施例的联网计算机环境；

图2是根据至少一个实施例的用于从多个说话者中分离目标语音的系统的框图；

图3是根据至少一个实施例的操作流程图，其示出了由程序执行的、从多个说话者中分离目标语音的操作；

图4是根据至少一个实施例的图1中所示的计算机和服务器的内部组件和外部组件的框图；

图5是根据至少一个实施例的包括图1所示的计算机系统的示例性云计算环境的框图；以及

图6是根据至少一个实施例的图5所示的示例性云计算环境的功能层的框图。

具体实施方式