[发明专利]音频信号的掩蔽阈值估计方法、装置及存储介质有效
申请号: | 201810949209.0 | 申请日: | 2018-08-20 |
公开(公告)号: | CN108899047B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 李超;朱唯鑫 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/78;G10L25/84;G10L21/0208;G10L21/0272 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王珺;陈建焕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 掩蔽 神经网络模型 处理音频信号 音频信号 音素类别 阈值估计 输出 计算机可读存储介质 样本音频信号 标签训练 存储介质 声学特征 网络学习 音素 标签 优化 | ||
1.一种音频信号的掩蔽阈值估计方法,其特征在于,包括:
将待处理音频信号输入多任务的神经网络模型,所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的;
从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值;
利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。
2.根据权利要求1所述的方法,其特征在于,还包括根据所述待处理音频信号的掩蔽阈值,采用以下公式对所述待处理音频信号进行去噪处理:
estimate=h_mask.*noisy
其中,noisy表示噪声的声学特征;estimate表示干净语音的声学特征的估计值;h_mask表示所述神经网络模型输出的掩蔽阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述神经网络模型的输入特征包括音频信号的FFT幅值谱。
4.根据权利要求1或2所述的方法,其特征在于,所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网;所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份,分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。
5.根据权利要求4所述的方法,其特征在于,所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层;
所述掩蔽阈值输出层设置为全连接层;
采用sigmoid函数作为所述掩蔽阈值输出层的激活函数。
6.根据权利要求4所述的方法,其特征在于,所述用于音素类别输出的任务子网包括音素类别输出层;
所述音素类别输出层设置为全连接层;
采用softmax函数作为所述音素类别输出层的激活函数;
采用交叉熵作为所述音素类别输出层的损失函数。
7.根据权利要求1或2所述的方法,其特征在于,还包括采用以下公式计算所述掩蔽阈值的标签:
其中,t表示时间的标度;f表示频域点的标号;表示第(t,f)时频点的干净语音的功率;表示第(t,f)时频点的带噪声的语音的功率。
8.根据权利要求1或2所述的方法,其特征在于,还包括:
采用HMM-GMM模型将音频信号和音素类别对齐,识别出音频信号中的声母和韵母;
将识别出的声母和韵母作为音素类别的标签。
9.一种音频信号的掩蔽阈值估计装置,其特征在于,包括:
输入单元,用于将待处理音频信号输入多任务的神经网络模型,所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的;
输出单元,用于从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值;
优化单元,用于利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。
10.根据权利要求9所述的装置,其特征在于,还包括去噪处理单元,用于根据所述待处理音频信号的掩蔽阈值,采用以下公式对所述待处理音频信号进行去噪处理:
estimate=h_mask.*noisy
其中,noisy表示噪声的声学特征;estimate表示干净语音的声学特征的估计值;h_mask表示所述神经网络模型输出的掩蔽阈值。
11.根据权利要求9或10所述的装置,其特征在于,所述神经网络模型的输入特征包括音频信号的FFT幅值谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810949209.0/1.html,转载请声明来源钻瓜专利网。