[发明专利]通过预测以讲话者表示为条件的隔离音频信号在音频记录中按来源分离语音在审
申请号: | 202180003714.6 | 申请日: | 2021-02-08 |
公开(公告)号: | CN113994427A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 尼尔·泽格多尔;大卫·格朗吉耶 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L21/028 | 分类号: | G10L21/028;G10L21/0208;G10L25/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 预测 讲话 表示 条件 隔离 音频 信号 记录 来源 分离 语音 | ||
用于执行语音分离的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。
相关申请的交叉引用
本申请要求2020年2月7日提交的美国临时专利申请序列号62/971,632的优先权,其全部内容通过引用并入本文。
背景技术
本申请书涉及使用神经网络以执行自动语音分离。
神经网络是机器学习模型,其采用非线性单元的一层或多层来预测接收到的输入的输出。除了输出层之外,一些神经网络包括一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层(即,下一个隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。
发明内容
本说明书描述用于自动语音分离的技术。这些技术通常涉及接收来自多个讲话者的语音的音频记录并且生成隔离音频信号,这些隔离音频信号各自表示来自记录中的多个讲话者中的一个的语音。实现本说明书中描述的技术的系统能够处理记录以对于每个识别的讲话者,获得包括该讲话者的特征的每记录表示。系统然后能够按记录处理每记录讲话者表示以获得隔离音频信号,这些隔离音频信号各自对应于所识别的讲话者中的一个的语音。
能够实现本说明书中描述的主题的特定实施例以便实现以下优点中的一个或多个。本说明书中描述的技术允许从多个讲话者的单个记录生成隔离语音信号。即使当音频是从单个记录设备被记录的时,并且在没有识别有多少讲话者正在被记录或者记录的哪个部分归因于哪个讲话者的注释或附加信息的情况下,也能够从单个记录中分离语音。
使用本说明书中描述的技术,能够在干净和有噪声的背景设置两者中有效地分离和识别语音。还能够针对每个讲话者分离语音,而在接收输入记录以供处理之前无需来自任何讲话者的语音的任何先前或参考记录。
在输入记录中预测讲话者的特征的机器学习模型能够与根据所预测的特征来生成隔离音频信号的模型一起被联合地训练,这能够既改进模型预测讲话者的特征的准确性,又改进模型根据所预测的特征和输入记录来生成隔离音频信号的准确性。本说明书中描述的技术能够改进较长记录的音频分离质量,因为学习的讲话者表示能够包括跨整个记录而不是记录内的特定时间窗口学习的特征。
如本说明书中描述的语音分离能够被用于从混合语音记录中识别和隔离特定讲话者,或者能够被用作中间处理步骤,例如,作为用于语音识别系统的预处理输入。能够训练实现本说明书中描述的技术的系统以即使在系统先前尚未遇到讲话者时也识别出讲话者。
通过从训练数据集中对短音频窗口进行采样作为训练示例,并且通过利用随机采样增益对音频进行重新加权来扩增采样后的音频,能够训练被训练为处理混合记录的机器学习模型,例如,通过本说明书中描述的技术实现的模型,以便在推理时获得更好的性能。通过扩增后的音频训练的模型在推理期间执行语音分离时能够是更鲁棒的和高效的,并且能够以最小配置对任何语音训练数据集应用如所描述的扩增。能够通过根据本说明书中描述的技术在甚至相对较小的训练数据集上扩增现有训练数据来容易地生成附加训练数据。
在附图和下面的描述中阐述了本公开的一种或多种实施方式的细节。从描述和附图以及从权利要求中,其他方面、特征和优点将是明显的。
附图说明
图1示出示例语音分离系统。
图2是用于为接收到的记录生成预测的隔离音频信号的示例过程的流程图。
图3是用于训练分离神经网络和讲话者神经网络的示例过程的流程图。
不同附图中相同的附图标记和名称指示相同的元件。
具体实施方式
本说明书描述一个或多个物理位置中的一个或多个计算机的系统,该系统使用讲话者神经网络和分离神经网络来对接收到的记录执行语音分离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180003714.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:存储器及其操作方法、存储器系统
- 下一篇:高层建筑空气加湿系统