[发明专利]音频信号处理方法、训练方法及其装置、设备、存储介质在审
申请号: | 202111541269.7 | 申请日: | 2021-12-16 |
公开(公告)号: | CN114242100A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 张文凯;张策;李峥;贾磊 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L25/30;G10L15/22;G10L15/20;G06N3/04;G06N3/08 |
代理公司: | 北京易光知识产权代理有限公司 11596 | 代理人: | 武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 信号 处理 方法 训练 及其 装置 设备 存储 介质 | ||
1.一种音频信号处理方法,包括:
从混合语音信号中消除至少部分的线性回声信号,得到中间处理信号;其中,所述混合语音信号是目标语音信号与回声信号混合后所得,所述回声信号与所述目标语音信号所处环境相关,包括线性回声信号和非线性回声信号;
利用目标全卷积神经网络模型去除所述中间处理信号中的非线性回声信号和残留的线性回声信号,得到近似目标语音信号,其中,所述目标全卷积神经网络模型包括至少两层卷积层;
所述利用目标全卷积神经网络模型去除所述中间处理信号中的非线性回声信号和残留的线性回声信号,包括:所述目标全卷积神经网络模型中的所述卷积层能够对所述中间处理信号中的音频帧进行卷积处理,并去除所述中间处理信号中的非线性回声信号和残留的线性回声信号;
所述卷积层在时间维度上进行卷积处理的音频帧包括:第t时刻的第t音频帧、第t-1时刻的第t-1音频帧至第t-N时刻的第t-N音频帧;所述N为大于等于1的整数;所述t为大于等于1的整数;所述第t时刻为当前时刻;当t取值为1时,第1音频帧表征所述中间处理信号中的首个音频帧;第0音频帧至第1-N音频帧为预设帧;所述方法还包括:将N个预设帧设置于所述中间处理信号中首个音频帧之前,更新所述中间处理信号,使更新后的中间处理信号的前N帧为预设帧;针对第1层卷积层之后的每层卷积层,在所述卷积层进行卷积处理之前,为所述卷积层设置N个预设帧;其中,N为卷积层的卷积核在时间维度上核数-1。
2.根据权利要求1所述的方法,还包括:
对所述近似目标语音信号进行语音识别,得到所述目标语音信号所指示的控制指令,响应所述控制指令。
3.根据权利要求1所述的方法,其中,所述目标全卷积神经网络模型中存在处理参数不同的至少两个卷积层;其中,所述卷积层的处理参数为以下参数中的至少一种:通道数,卷积核。
4.根据权利要求3所述的方法,其中,所述目标全卷积神经网络模型所包含的卷积层的通道数具有如下之一趋势:
递增趋势、递减趋势,先递增后递减的趋势。
5.根据权利要求1至4中任一项所述的方法,其中,所述利用目标全卷积神经网络模型去除所述中间处理信号中的非线性回声信号和残留的线性回声信号,包括:
将所述中间处理信号输入至所述目标全卷积神经网络模型;或者,
将所述中间处理信号的音频特征输入至所述目标全卷积神经网络模型。
6.根据权利要求1至4中任一项所述的方法,其中,所述从混合语音信号中消除至少部分的线性回声信号,得到中间处理信号,包括:
估计得到所述混合语音信号所处环境下的近似线性回声信号;
从所述混合语音信号中消除估计得到的所述近似线性回声信号,得到所述中间处理信号。
7.根据权利要求6所述的方法,其中,所述估计得到所述混合语音信号所处环境下的近似线性回声信号,包括:
将所述混合语音信号和用于产生所述回声信号的远端信号输入至线性回声模型中,得到近似线性回声信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111541269.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:CMOS图像传感器的制造方法
- 下一篇:一种妇产科用临盆产妇的智能训练装置