[发明专利]一种基于深度神经网络的语音质量客观评价方法有效
申请号: | 201811154469.5 | 申请日: | 2018-09-30 |
公开(公告)号: | CN109065072B | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 李国腾;彭任华;郑成诗;李晓东 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/30 |
代理公司: | 11472 北京方安思达知识产权代理有限公司 | 代理人: | 陈琳琳;李彪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 神经网络 客观评价 目标语音 目标语音信号 神经网络输出 语音特征向量 客观评测 实际目标 语音特征 语音语速 质量评价 变速 相关度 构建 算法 输出 | ||
1.一种基于深度神经网络的语音质量客观评价方法,包括:
步骤1)以带噪语音的三种语音特征生成的数据作为深度神经网络的输入,以实际目标语音的PESQ得分所在区间编号编码为深度神经网络输出目标,构建及训练深度神经网络;
步骤2)将待评价语音的q帧语音特征向量作为输入数据输入训练好的深度神经网络,输出该待评价语音的质量评价分数;
所述步骤2)包括:
步骤2-1)提取待评价语音的q帧语音特征向量,进行扩展后依次取q个连续j帧特征向量拼接的k维数据,q,j,k为自然数;其中,语音特征向量包括三种语音特征及三种语音特征的一阶差分;所述三种语音特征包括:短时幅度调制谱、相关谱-感知加权线性预测和梅尔倒谱系数;
步骤2-2)将所述的q个k维数据依次输入深度神经网络,输出每帧语音特征向量对应的得分区间编号编码,并映射成得分区间编号对应的实际得分,得到q个实际得分;所述PESQ得分的取值范围为[-0.5,4.5],将该取值范围平均划分为K个得分区间,区间编号分别为1,2,3,…K,对应深度神经网络输出的K维向量,K为自然数,该向量仅包含有一个非零元且数值为1;目标的得分区间编号对应深度神经网络输出向量非零元的位置;
步骤2-3)将q个实际得分相加,再取平均值作为该段语音的预测分数。
2.根据权利要求1所述的基于深度神经网络的语音质量客观评价方法,其特征在于,所述步骤1)包括:
步骤1-1)构建深度神经网络;
步骤1-2)将不同的纯语音和环境噪声混合生成不同信噪比的带噪语音;
步骤1-3)提取一段带噪语音的q帧语音特征向量,进行扩展后依次取q个连续j帧特征向量拼接的k维数据作为深度神经网络的输入数据,q,j,k为自然数;
以所述输入数据的PESQ得分所在区间的量化编码作为深度神经网络的输出;
步骤1-4)对所述深度神经网络进行训练,得到训练好的深度神经网络。
3.根据权利要求2所述的基于深度神经网络的语音质量客观评价方法,其特征在于,所述步骤1-1)包括:
步骤1-1-1)构建深度神经网络,包括1个输入层,3个隐藏层和1个输出层,输入层包括k个节点,每个隐含层包括1024个节点,输出层包括K个节点;
步骤1-1-2)构建隐藏层节点的输出函数为Sigmoid函数,形式如下:
其中,θ代表隐藏层参数设置,x代表隐层输入,hθ(x)则为其中某一个节点的输出,深度神经网络输出层采用Softmax函数,函数形式如下所示:
其中,z代表输出层的输入数据,Θ则为输出层参数设置,K代表输出层节点数,与输出类别对应,θi代表与第i个节点对应的参数设置,T为转置;
其输出层的输出值P代表输入数据属于该类别的概率。
4.根据权利要求3所述的基于深度神经网络的语音质量客观评价方法,其特征在于,所述步骤1-2)包括:
步骤1-2-1)取信噪比范围为-40dB-40dB的各种环境噪声样本,平均划分为w个信噪比,w为自然数;
步骤1-2-2)在同一个信噪比下,对每一句纯净语音,随机抽取环境噪声样本,进行混合,生成带噪语音;生成w个不同信噪比下的带噪语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811154469.5/1.html,转载请声明来源钻瓜专利网。