[发明专利]一种VAD动态参数调整方法和装置有效
申请号: | 201611234787.3 | 申请日: | 2016-12-28 |
公开(公告)号: | CN106611598B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 陈迪;李喆;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/02;G10L15/16;G10L25/30 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 齐洁茹 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种VAD动态参数调整方法和装置,所述方法包括:提取训练语料中每句语音信号的情感特征向量;将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练;在语音处理时,利用已训练的所述神经网络以当前语句的前一语句的情感特征向量为输入特征而输出的VAD参数,对当前语句进行语音端点检测。本发明通过找到语音中的情感信息和VAD模型相关参数间存在的规律,得到VAD效果最优参数模型,当需要语音端点检测时,利用最优参数模型对VAD参数进行动态预估,从而达到优化特殊场景下的VAD的效果。 | ||
搜索关键词: | 一种 vad 动态 参数 调整 方法 装置 | ||
【主权项】:
1.一种语音端点检测VAD动态参数调整方法,其特征在于,包括:提取训练语料中每句语音信号的情感特征向量;将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练;在语音处理时,利用已训练的所述神经网络以当前语句的前一语句的情感特征向量为输入特征而输出的VAD参数,对当前语句进行语音端点检测;其中,所述设定的神经网络训练算法包括:反向传播Back‑Propagation算法;所述将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练,还包括:将第i句语音信号的情感特征向量作为神经网络的输入特征输入神经网络后,通过前向传播算法处理,得到VAD参数序列;将得到的VAD参数序列与第i句语音信号对应的最优VAD参数序列进行比较,得到以相邻两层节点间连线权重为变量的误差函数;基于所述误差函数,求取神经网络中相邻两层节点间连线权重的调整量,并根据求取的调整量对神经网络中相邻两层节点间连线权重进行更新;令i=i+1,重复上述过程,直到所述训练语料内的语音信号全部训练完毕;其中i=1,….,N,N为所述训练语料内语音信号的总句数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611234787.3/,转载请声明来源钻瓜专利网。