[发明专利]一种基于深度神经网络的语音质量客观评价方法有效
申请号: | 201811154469.5 | 申请日: | 2018-09-30 |
公开(公告)号: | CN109065072B | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 李国腾;彭任华;郑成诗;李晓东 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/30 |
代理公司: | 11472 北京方安思达知识产权代理有限公司 | 代理人: | 陈琳琳;李彪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度神经网络的语音质量客观评价方法,包括:步骤1)以带噪语音的三种语音特征生成的数据作为深度神经网络的输入,以实际目标语音的PESQ得分为深度神经网络输出目标,构建及训练深度神经网络;步骤2)将待评价语音的q帧语音特征向量作为输入数据输入训练好的深度神经网络,输出该待评价语音的质量评价分数。本发明能够实现在仅存在有目标语音信号的条件下,对目标语音质量做出客观评价,对目标语音的客观评价与实际PESQ算法做出的评价具有较高相关度;本发明适用于变速语音的情况,不会因语音语速的改变而导致语音质量无法进行客观评测,评价结果较准确;本发明可直接评价语音质量,不需要纯净参考信号的存在。 | ||
搜索关键词: | 语音 神经网络 客观评价 目标语音 目标语音信号 神经网络输出 语音特征向量 客观评测 实际目标 语音特征 语音语速 质量评价 变速 相关度 构建 算法 输出 | ||
【主权项】:
1.一种基于深度神经网络的语音质量客观评价方法,包括:/n步骤1)以带噪语音的三种语音特征生成的数据作为深度神经网络的输入,以实际目标语音的PESQ得分所在区间编号编码为深度神经网络输出目标,构建及训练深度神经网络;/n步骤2)将待评价语音的q帧语音特征向量作为输入数据输入训练好的深度神经网络,输出该待评价语音的质量评价分数;/n所述步骤2)包括:/n步骤2-1)提取待评价语音的q帧语音特征向量,进行扩展后依次取q个连续j帧特征向量拼接的k维数据,q,j,k为自然数;其中,语音特征向量包括三种语音特征及三种语音特征的一阶差分;所述三种语音特征包括:短时幅度调制谱、相关谱-感知加权线性预测和梅尔倒谱系数;/n步骤2-2)将所述的q个k维数据依次输入深度神经网络,输出每帧语音特征向量对应的得分区间编号编码,并映射成得分区间编号对应的实际得分,得到q个实际得分;所述PESQ得分的取值范围为[-0.5,4.5],将该取值范围平均划分为K个得分区间,区间编号分别为1,2,3,…K,对应深度神经网络输出的K维向量,K为自然数,该向量仅包含有一个非零元且数值为1;目标的得分区间编号对应深度神经网络输出向量非零元的位置;/n步骤2-3)将q个实际得分相加,再取平均值作为该段语音的预测分数。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811154469.5/,转载请声明来源钻瓜专利网。