[发明专利]用于改进的实时音频处理的系统、方法和计算机可读介质在审
申请号: | 201980025444.1 | 申请日: | 2019-04-01 |
公开(公告)号: | CN111971743A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | I·J·塔谢夫;S·M·扎拉;Y-H·图;C-H·李;赵晗 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L21/0232;G10L25/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 黄倩 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 改进 实时 音频 处理 系统 方法 计算机 可读 介质 | ||
公开了用于改进的实时音频处理的系统、方法和计算机可读存储设备。一种方法包括:接收具有多个频率区间的、包括多个帧的音频数据;针对每个频率区间,基于多个帧计算近似语音信号估计;针对每个近似语音信号估计,使用经训练的神经网络模型计算干净语音估计和包括理想比率掩码的至少一个附加目标;以及针对每个频率区间,使用包括所计算的理想比率掩码的所计算的至少一个附加目标和所计算的干净语音估计来计算最终干净语音估计。
技术领域
本公开涉及改进实时音频质量、语音识别和/或语音检测的音频处理。具体地,本公开涉及使用统计信号处理算法、机器学习、时域信息、频域信息、和/或转换域信息来改进增强和/或音频数据中的语音和噪声的检测的实时音频处理。
背景技术
语音增强技术可以采用统计信号处理算法,即使在未知噪声条件下,该算法也可以提高计算效率并且提高语音质量。这种语音增强技术可以优选用于可能存在未知噪声条件的不可预测环境中的部署。但是,采用统计信号处理算法的语音增强技术可能无法抑制非平稳噪声。基于深度学习的算法可以克服无法抑制非平稳噪声的问题。但是,基于深度学习的算法在面对未被捕获在训练数据集中的噪声条件时可能表现不佳。
因此,将采用统计信号处理算法的语音增强技术的优点与基于深度学习的算法相组合的单通道语音增强技术可以在既未知又非平稳的噪声条件下实现改进的侦听质量和识别准确性。通过将有噪声的输入声谱图特征与增益向量(也称为抑制规则)相乘,可以使用采用统计信号处理算法的语音增强技术来产生输入数据的中间表示。输入数据的中间表示然后可以通过基于深度学习的算法(诸如基于长短期记忆(“LSTM)”单元的递归神经网络)进行处理。此外,可以训练基于LSTM单元的递归神经网络以共同学习两个目标:对干净语音特征的直接估计和降噪掩码。
基于深度学习的其他算法可以包括用于语音增强的基于卷积神经网络和递归神经网络的端到端模型。端到端模型可以是数据驱动的,并且可以不对噪声的类型或噪声的平稳性做出任何假定。采用卷积和递归神经网络架构都可以允许在时域、频域和/或转换域中利用局部结构。此外,通过将语音信号的先验知识合并到模型结构的设计中,这样的端到端模型可以具有更高的数据效率,并且可以实现对见过的噪声和未见过的噪声的更好泛化。
尽管本公开具体地讨论了音频处理,但是本公开的各方面不仅可以适用于音频处理,而且还可以适用于回归处理和分类问题。
发明内容
根据某些实施例,公开了用于改进的实时音频处理的系统、方法和计算机可读介质。
根据某些实施例,公开了一种用于经改进的实时音频处理的计算机实现的方法。一种方法包括:接收具有多个频率区间(frequency bin)的、包括多个帧的音频数据;针对每个频率区间,基于多个帧计算近似语音信号估计;针对每个近似语音信号估计,使用经训练的神经网络模型计算干净语音估计和包括理想比率掩码的至少一个附加目标;以及针对每个频率区间,使用包括所计算的理想比率掩码的所计算的至少一个附加目标和所计算的干净语音估计来计算最终干净语音估计。
根据某些实施例,公开了一种用于经改进的实时音频处理的系统。一种系统包括:存储用于经改进的实时音频处理的指令的数据存储设备;以及被配置为执行指令以执行方法的处理器,该方法包括:接收具有多个频率区间的、包括多个帧的音频数据;针对每个频率区间,基于多个帧计算近似语音信号估计;针对每个近似语音信号估计,使用经训练的神经网络模型计算干净语音估计和包括理想比率掩码的至少一个附加目标;以及针对每个频率区间,使用包括所计算的理想比率掩码的所计算的至少一个附加目标和所计算的干净语音估计来计算最终干净语音估计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980025444.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:聚乙烯醇缩醛树脂薄膜
- 下一篇:包含热交换区域的电池单元