[发明专利]一种VAD动态参数调整方法和装置有效
申请号: | 201611234787.3 | 申请日: | 2016-12-28 |
公开(公告)号: | CN106611598B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 陈迪;李喆;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/02;G10L15/16;G10L25/30 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 齐洁茹 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 vad 动态 参数 调整 方法 装置 | ||
本发明公开了一种VAD动态参数调整方法和装置,所述方法包括:提取训练语料中每句语音信号的情感特征向量;将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练;在语音处理时,利用已训练的所述神经网络以当前语句的前一语句的情感特征向量为输入特征而输出的VAD参数,对当前语句进行语音端点检测。本发明通过找到语音中的情感信息和VAD模型相关参数间存在的规律,得到VAD效果最优参数模型,当需要语音端点检测时,利用最优参数模型对VAD参数进行动态预估,从而达到优化特殊场景下的VAD的效果。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种语音端点检测VAD动态参数调整方法和装置。
背景技术
能量双门限法是语音端点检测VAD的常用算法。语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段,平均能量最低;浊音段为声带振动发出对应的语音信号段,平均能量最高;清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段,平均能量居于前两者之间。清音段和无声段的波形特点有明显的不同,无声段信号变化较为缓慢,而清音段信号在幅度上变化剧烈,穿越零电平次数也多。经验表明,通常清音段过零率最大。语音端点检测就是首先判断有声还是无声,如果有声,则还要判断是清音还是浊音。为正确地实现端点检测,一般综合利用短时能量和过零率两个特征,采用双门限检测法。
目前有优化VAD效果的技术,但均是从能量VAD方面去尝试优化,并未考虑到特殊场景的问题,也未能应用到语音中的语速,情感等信息,语音端点检测准确性较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种解决上述问题的VAD动态参数调整方法和装置,以提高特殊场景下语音端点检测的准确性。
依据本发明的一个方面,提供一种VAD动态参数调整方法,包括:
提取训练语料中每句语音信号的情感特征向量;
将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练;
在语音处理时,利用已训练的所述神经网络以当前语句的前一语句的情感特征向量为输入特征而输出的VAD参数,对当前语句进行语音端点检测。
依据本发明的另一个方面,提供一种VAD动态参数调整装置,包括:
信息提取模块,用于提取训练语料中每句语音信号的情感特征向量;
训练模块,用于将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练;
检测模块,用于在语音处理时,利用已训练的所述神经网络以当前语句的前一语句的情感特征向量为输入特征而输出的VAD参数,对当前语句进行语音端点检测。
本发明有益效果如下:
本发明利用深度神经网络学习语音中的情感信息,找到语音中的情感信息和VAD模型相关参数间存在的规律,得到相应的VAD效果最优参数模型,当需要语音端点检测时,利用最优参数模型对VAD参数进行动态预估,从而达到优化特殊场景下的VAD的效果,利用优化后的VAD进行语音端点检测,可以提高检测准确性,很好的解决了现有技术中仅从能量方面优化VAD,不能满足特殊场景的需求,导致检测准确性低的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611234787.3/2.html,转载请声明来源钻瓜专利网。