[发明专利]回声消除方法、装置、电子设备和可读存储介质有效
申请号: | 202110272697.8 | 申请日: | 2021-03-12 |
公开(公告)号: | CN112687288B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 马路;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L25/27 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 顾可嘉;夏华栋 |
地址: | 100872 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 回声 消除 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种回声消除方法、装置、电子设备和可读存储介质,回声消除方法包括:获取待处理混合语音信号和待处理远端语音信号;将待处理混合语音信号输入预先训练的第一网络模型,以提取待处理混合语音信号的第一特征,以及,将待处理远端语音信号输入预先训练的第二网络模型,以提取待处理远端语音信号的第二特征;将第一特征和第二特征输入预先训练的具有多头注意力层的回声估计网络模型,以获得第三特征;根据第一特征和第三特征,获得消除回声后的近端语音。本申请提供的回声消除方法、装置、电子设备和可读存储介质,具有更好的回音消除效果。
技术领域
本申请涉及声学领域,尤其涉及一种回声消除方法、装置、电子设备和可读存储介质。
背景技术
在语音交互和语音通话等场景中,回声消除性能的好坏直接影响后端语音识别率和用户听感体验,是语音技术的关键核心技术。
现有技术通过源自网页即时通信(WebRTC)的方法回声消除,即:首先利用时延估计算法对齐近端语音数据和远端语音数据,再利用自适应滤波器估计回声,从而消除线性回声。其不足在于,易存在残余回声,回声消除效果差。
发明内容
为了解决上述技术问题中的至少一个,本申请提供了一种回声消除方法、装置、电子设备和可读存储介质,以提高回音消除效果。
本申请的第一方面,一种回声消除方法,包括:
获取待处理混合语音信号和待处理远端语音信号;
将所述待处理混合语音信号输入预先训练的第一网络模型,以提取所述待处理混合语音信号的第一特征,以及,将所述待处理远端语音信号输入预先训练的第二网络模型,以提取所述待处理远端语音信号的第二特征;
将所述第一特征和所述第二特征输入预先训练的具有多头注意力层的回声估计网络模型,以获得第三特征,所述第三特征包含所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息;
根据所述第一特征和所述第三特征,获得消除回声后的近端语音信号。
可选的,所述第一网络模型和所述第二网络模型均为卷积网络模型。
可选的,所述回声估计网络模型基于所述第一特征生成所述多头注意力层所对应的查询向量,基于所述第二特征生成所述多头注意力层所对应的键向量和所述多头注意力层所对应的值向量。
可选的,所述回声估计网络模型包括长短时记忆网络层,其中,所述多头注意力层的输入端用于输入所述第一特征和所述第二特征,所述长短时记忆网络层的输入端用于输入所述第一特征和所述多头注意力层输出的特征。
可选的,所述多头注意力层至少包括用于以线性角度估计回声的第一注意力层和用于以非线性角度估计回声的第二注意力层。
可选的,所述根据所述第一特征和所述第三特征,获得消除回声后的近端语音信号,包括:
将所述第一特征和所述第三特征输入预先训练的掩膜估计模型,以获得所述待处理混合语音的每个时频点的掩膜值;
根据所述掩膜值和所述待处理混合语音的每个时频点的值,获得消除回声后的近端语音信号。
可选的,所述获取待处理混合语音信号和待处理远端语音信号之前,还包括 :训练模型的步骤;
所述训练模型的步骤包括:
获取待训练混合语音时频域信号、待训练远端语音时频域信号和待训练掩膜值,所述待训练掩膜值为根据所述待训练混合语音时频域信号和待训练远端语音时频域信号所确定的掩膜值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110272697.8/2.html,转载请声明来源钻瓜专利网。