[发明专利]唇动增强的单声道和多声道声源分离在审
申请号: | 202110025122.6 | 申请日: | 2021-01-08 |
公开(公告)号: | CN113096683A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 李韵 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/87;G10L15/25;G10L25/30 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁;张艳梅 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 增强 单声道 多声道 声源 分离 | ||
提供了用于实现源分离技术的方法和系统,并且更具体地,对通过从捕获的图像数据输入唇动信息而增强的混合源单声道和多声道音频信号执行源分离,包括从关注时段内捕获的多个面部图像的中选择目标说话者面部图像;基于目标说话者面部图像的面部特征计算运动矢量;至少基于运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源音频信号相分离。可以从单声道或多声道音频捕获设备捕获混合的源音频信号。可以通过包括多个学习子模型的融合学习模型来执行音频与音频信号的分离。可以通过盲源分离(“BSS”)学习模型来执行音频与音频信号的分离。
技术领域
本发明涉及语音及图形处理技术领域。特别的,涉及一种唇动增强的单声道和多声道生源分离技术。
背景技术
在数据处理中,源分离是一个广泛且开放的问题,其中信号从多个源被接收、观察或以其他方式输入;特别地,盲源分离(“BSS”)描述了事先不知道不同信号源的数量和性质的源分离场景。期望在没有关于信号源的信息的情况下将信号彼此分离。
取决于信号从哪里导出的设置,可以获取用于帮助确定信号源的信号源上下文。例如,在自动的公共自助服务亭机器上,特别是在公共交通摄入量高的位置,例如中转站、剧院、旅游景点、过境点等等,可以至少在忙时建立多个队列,以增加吞吐量并减少事务处理的等待时间,例如票证、文档验证等。为了进一步提高吞吐量并减少等待时间,可以在自助服务亭机器上部署语音识别技术,以使自助交易无需人工收银员参与,也无需用户手动操作物理接口即可执行,从而可提高自助交易的效率。
然而,在这些高公共交通设置中,由于需要管理公共空间,交易通常彼此紧邻地进行。因此,根据特定情况,在公共交通频繁的地点的自动自助服务亭会产声源分离问题;这些特定上下文所带来的挑战应以上下文相关的方式解决。
发明内容
本申请提供的一种方法,包括:基于在关注时段内捕获的目标说话者面部图像的面部特征来计算运动矢量;和,至少所述基于运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号相分离;其中通过从包括多个学习子模型的融合学习模型执行音频与音频信号的分离。
本申请还提供一种系统,包括:一个或多个处理器;和,通信地连接到所述一个或多个处理器的存储器,所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块,所述计算机可执行模块在由所述一个或多个处理器执行时执行相关的操作,所述计算机可执行模块包括:面部特征提取模块,所述面部特征提取模块被配置为基于在关注时段内捕获的目标说话者面部图像的面部特征来计算运动矢量;和,源分离模块,所述源分离模块被配置为至少基于所述运动矢量,将与成分源相对应的音频与在所述关注时段内捕获的混合源单声道音频信号相分离;其中,所述源分离模块被配置为通过包括多个学习子模型的融合学习模型将音频与音频信号分离。
此外,本申请还提供一种计算机可读存储介质,其存储可由一个或多个处理器执行的计算机可读指令,所述计算机可读指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作:基于在关注时段捕获的目标说话者面部图像的面部特征来计算运动矢量;和,至少基于所述运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号相分离;其中通过从包括多个学习子模型的融合学习模型执行音频与音频信号的分离。
附图说明
以下参照附图阐述详细描述。在所述附图中,附图标记的最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记表示相似或相同的项目或特征。
图1示出了根据本公开的示例实施例的由图像捕获设备捕获的示例静态图像、视频帧和/或面部图像的示意图。
图2A示出了根据本公开的示例实施例的被配置为计算源分离系统的系统架构。图2B示出了根据图2A的示例的专用处理器。
图3A、图3B和图3C示出了根据本公开的示例实施例的用于将音频信号和目标说话者面部图像输入到学习模型中以进行单声道源分离或多声道源分离计算的预处理过程的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110025122.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:编织物
- 下一篇:用于混频器的IQ产生器