[发明专利]一种基于深度神经网络的语音质量客观评价方法有效

专利信息
申请号: 201811154469.5 申请日: 2018-09-30
公开(公告)号: CN109065072B 公开(公告)日: 2019-12-17
发明(设计)人: 李国腾;彭任华;郑成诗;李晓东 申请(专利权)人: 中国科学院声学研究所
主分类号: G10L25/60 分类号: G10L25/60;G10L25/30
代理公司: 11472 北京方安思达知识产权代理有限公司 代理人: 陈琳琳;李彪
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度神经网络的语音质量客观评价方法,包括:步骤1)以带噪语音的三种语音特征生成的数据作为深度神经网络的输入,以实际目标语音的PESQ得分为深度神经网络输出目标,构建及训练深度神经网络;步骤2)将待评价语音的q帧语音特征向量作为输入数据输入训练好的深度神经网络,输出该待评价语音的质量评价分数。本发明能够实现在仅存在有目标语音信号的条件下,对目标语音质量做出客观评价,对目标语音的客观评价与实际PESQ算法做出的评价具有较高相关度;本发明适用于变速语音的情况,不会因语音语速的改变而导致语音质量无法进行客观评测,评价结果较准确;本发明可直接评价语音质量,不需要纯净参考信号的存在。
搜索关键词: 语音 神经网络 客观评价 目标语音 目标语音信号 神经网络输出 语音特征向量 客观评测 实际目标 语音特征 语音语速 质量评价 变速 相关度 构建 算法 输出
【主权项】:
1.一种基于深度神经网络的语音质量客观评价方法,包括:/n步骤1)以带噪语音的三种语音特征生成的数据作为深度神经网络的输入,以实际目标语音的PESQ得分所在区间编号编码为深度神经网络输出目标,构建及训练深度神经网络;/n步骤2)将待评价语音的q帧语音特征向量作为输入数据输入训练好的深度神经网络,输出该待评价语音的质量评价分数;/n所述步骤2)包括:/n步骤2-1)提取待评价语音的q帧语音特征向量,进行扩展后依次取q个连续j帧特征向量拼接的k维数据,q,j,k为自然数;其中,语音特征向量包括三种语音特征及三种语音特征的一阶差分;所述三种语音特征包括:短时幅度调制谱、相关谱-感知加权线性预测和梅尔倒谱系数;/n步骤2-2)将所述的q个k维数据依次输入深度神经网络,输出每帧语音特征向量对应的得分区间编号编码,并映射成得分区间编号对应的实际得分,得到q个实际得分;所述PESQ得分的取值范围为[-0.5,4.5],将该取值范围平均划分为K个得分区间,区间编号分别为1,2,3,…K,对应深度神经网络输出的K维向量,K为自然数,该向量仅包含有一个非零元且数值为1;目标的得分区间编号对应深度神经网络输出向量非零元的位置;/n步骤2-3)将q个实际得分相加,再取平均值作为该段语音的预测分数。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811154469.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top