[发明专利]语音增强方法、装置、设备及存储介质有效

申请号：	201810967670.9	申请日：	2018-08-23
公开（公告）号：	CN110858485B	公开（公告）日：	2023-06-30
发明（设计）人：	刘章;余涛	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L21/0216	分类号：	G10L21/0216
代理公司：	北京展翼知识产权代理事务所(特殊普通合伙) 11452	代理人：	屠长存
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音增强方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提出了一种语音增强方法、装置、设备及存储介质。将麦克风阵列中两个麦克风的输出相减，以得到一阶差分输出；将所述一阶差分输出与预定阈值进行比较；基于比较结果，确定各个频点的隐蔽值，其中，所述隐蔽值用于表征带噪语音中噪声对语音的遮蔽情况；以及基于所述隐蔽值进行语音增强。本公开的基于差分mask实现的语音增强方案几乎没有延迟，且不受定向人声干扰的影响，可以有效提高地铁购票机等嘈杂场景中语音识别成功率。

技术领域

本公开涉及语音增强领域，特别是涉及一种语音增强方法、装置、设备及存储介质。

背景技术

随着人工智能语音技术的发展，很多传统设备对人机语音交互的需求愈加强烈，例如地铁购票机。但是，要在地铁购票机场景成功应用需要挑战高度嘈杂的噪声环境。这些噪声有：人群说话造成的泡沫噪声，购票人周围说话人造成的干扰噪声，人群移动产生噪声，地铁机车运动的机械噪声，高音喇叭的干扰音等。高度嘈杂的噪声给语音识别带来极大的挑战，由于现有声学模型技术无法有效克服泡沫噪声和人声干扰的影响，在高度嘈杂环境中，语音识别效果会急剧下降。

因此，需要一种针对嘈杂场景下的语音增强方案。

发明内容

本公开的一个目的在于提供一种能够提高语音增强效果的语音增强方案。

根据本公开的第一个方面，提出了一种语音增强方法，包括：将麦克风阵列中两个麦克风的输出相减，以得到一阶差分输出；将一阶差分输出与预定阈值进行比较；基于比较结果，确定各个频点的隐蔽值，其中，隐蔽值用于表征带噪语音中噪声对语音的遮蔽情况；以及基于隐蔽值进行语音增强。

可选地，确定各个频点的隐蔽值的步骤包括：将一阶差分输出小于预定阈值时的频点的隐蔽值确定为1，并且将一阶差分输出大于或等于预定阈值时的频点的隐蔽值确定为0。

可选地，确定各个频点的隐蔽值的步骤包括：基于多个一阶差分输出分别与预定阈值进行比较的结果，确定每个一阶差分输出的隐蔽值估计结果；以及基于多个隐蔽值估计结果中对应同一频点的隐蔽值，确定该频点最终的隐蔽值。

可选地，确定该频点最终的隐蔽值的步骤包括：将多个所述隐蔽值估计结果中对应同一频点的隐蔽值的乘积，作为该频点最终的隐蔽值。

可选地，一阶差分输出等于滤波器系数与两个麦克风的时频域数据构成的矩阵的乘积。

可选地，滤波器系数为

其中，h(ω)为滤波器系数，τ₀是两个麦克风的距离除以声速，ω是角频率，α是用来调节差分零陷的方向的参数。

可选地，语音增强方法，还包括：基于说话人的声源位置信息，计算两个麦克风与说话人的相对角度；以及基于相对角度确定滤波器系数中的α。

可选地，计算两个麦克风与说话人的相对角度的步骤包括：确定两个麦克风的中心到说话人的第一方向向量；确定两个麦克风中一个麦克风到另一个麦克风的第二方向向量；基于第一方向向量和第二方向向量，计算相对角度。

可选地，基于所述隐蔽值进行语音增强的步骤包括：基于所述隐蔽值，计算对应语音的第一相关矩阵和对应噪音的第二相关矩阵；以及基于所述第一相关矩阵和所述第二相关矩阵，利用波束形成算法进行语音增强。

可选地，所述第一相关矩阵为基于所述隐蔽值从所述麦克风阵列输出的时频域数据中提取出的对应语音部分的协方差矩阵，所述第二相关矩阵为基于所述隐蔽值从所述麦克风阵列输出的时频域数据中提取出的对应噪声部分的协方差矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810967670.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音增强方法、装置、设备及存储介质有效

专利文献下载