[发明专利]一种VAD动态参数调整方法和装置有效
申请号: | 201611234787.3 | 申请日: | 2016-12-28 |
公开(公告)号: | CN106611598B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 陈迪;李喆;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/02;G10L15/16;G10L25/30 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 齐洁茹 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 vad 动态 参数 调整 方法 装置 | ||
1.一种语音端点检测VAD动态参数调整方法,其特征在于,包括:
提取训练语料中每句语音信号的情感特征向量;
将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练;
在语音处理时,利用已训练的所述神经网络以当前语句的前一语句的情感特征向量为输入特征而输出的VAD参数,对当前语句进行语音端点检测;
其中,所述设定的神经网络训练算法包括:反向传播Back-Propagation算法;
所述将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练,还包括:
将第i句语音信号的情感特征向量作为神经网络的输入特征输入神经网络后,通过前向传播算法处理,得到VAD参数序列;
将得到的VAD参数序列与第i句语音信号对应的最优VAD参数序列进行比较,得到以相邻两层节点间连线权重为变量的误差函数;
基于所述误差函数,求取神经网络中相邻两层节点间连线权重的调整量,并根据求取的调整量对神经网络中相邻两层节点间连线权重进行更新;
令i=i+1,重复上述过程,直到所述训练语料内的语音信号全部训练完毕;其中i=1,….,N,N为所述训练语料内语音信号的总句数。
2.如权利要求1所述的方法,其特征在于,还包括:
利用多套VAD参数,对所述训练语料中的每句语音信号进行语音端点检测,并通过语音端点检测的VAD帧正确率,确定每句语音信号的最优VAD参数序列。
3.如权利要求1所述的方法,其特征在于,所述情感特征向量包括如下向量中的一个或多个:语速特征向量、语调特征向量和瞬时特征向量。
4.如权利要求3所述的方法,其特征在于,所述语速特征向量的提取方式包括:
求取语音信号的语速与预先设定的标准语速的比值;
根据设定的语速阈值区间,判断语音信号的语速是否为异常语速;
当为异常语速时,按照设定的调整系数对所述比值进行调整,并将调整后的比值作为提取的语速特征向量;否则,直接以所述比值作为提取的语速特征向量。
5.如权利要求3所述的方法,其特征在于,所述语调特征向量的提取方式包括:
按设定的帧长和帧移,将语音信号切分为若干帧,并确定各帧的平均音高;
根据当前帧与前一帧的平均音高的差值,确定当前帧的语调类型;
确定各类型的语调占总语调的比例,并将各类型的语调占总语调的比例作为提取的语调特征向量。
6.如权利要求3所述的方法,其特征在于,所述瞬时特征向量包括:语音信号的音高特征向量和/或能量特征向量。
7.如权利要求1所述的方法,其特征在于,在所述训练语料内的语句全部训练完毕后,所述方法还包括:
判断是否已达到设定的训练迭代次数阈值;
当已达到时,判定所述神经网络已训练完成;
当未达到时,继续将所述训练语料内的各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出,采用设定的神经网络训练算法,对搭建的神经网络进行训练,直至达到设定的训练迭代次数阈值。
8.如权利要求7所述的方法,其特征在于,当未达到时,还包括:判断当前迭代次数是否满足设定的参数调整条件,当满足时,按设定方式,对所述神经网络训练算法中指定的训练参数进行调整。
9.如权利要求8所述的方法,其特征在于,所述指定的训练参数包括:神经网络学习率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611234787.3/1.html,转载请声明来源钻瓜专利网。