[发明专利]一种基于深度神经网络的欺骗语音检测方法有效
申请号: | 201910590712.6 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110491391B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 李琳;黎荣晋;洪青阳 | 申请(专利权)人: | 厦门大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L17/22 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 张松亭;杨依展 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 欺骗 语音 检测 方法 | ||
1.一种基于深度神经网络的欺骗语音检测方法,其特征在于:包括:
步骤A,根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络的欺骗语音检测模型,所述欺骗语音检测模型具有网络参数;所述深度神经网络系支持多特征多任务的深度神经网络,它含有多个隐藏层、支持多特征的特征拼接层、统计池化层和支持多任务的输出层;所述步骤A包括:
步骤A1,从用户已有的已知真伪的语音数据中提取至少两种高时间-频率分辨率的声学特征;
步骤A2,按每帧对齐后依次拼接每帧的至少两种声学特征向量,形成拼接的声学特征向量;
步骤A3,基于同一语音信号对应的拼接的声学特征向量,生成至少两份不同的网络训练样本集,至少有一份是用于二元决策任务,至少有一份是用于其他任务;
步骤A4,将至少两份训练样本随机交替输入到多特征多任务网络中,样本的每帧特征向量经过输入层之后分离为至少两种声学特征;
步骤A5,将至少两种声学特征输入到不同的特征网络分支,分别将特征网络分支的输出值按帧拼接成一个特征表征向量,把这至少两个神经网络分支的输出向量进行左右拼接形成拼接层的拼接式特征向量,继而输出到后续隐藏层;
步骤A6,结合梯度控制单元的多任务学习,上述的二元决策任务和欺骗攻击分类任务交替进行,当前主任务为二元决策任务时,当前辅助任务则为其他任务;当前主任务为其他任务时,当前辅助任务为二元决策任务;使用梯度控制单元来协调不同任务之间的前向表征传播与后向梯度传播,减少多任务学习中不同任务之间的负面干扰;
步骤B,将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型进行分类判别,判断出该测试语音是真实语音还是欺骗语音。
2.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤B中,将测试语音输入到上述欺骗语音检测模型,上述欺骗语音检测模型的输出为输出层二元决策任务的输出节点概率,根据二元决策节点的两个概率大小判断该测试语音是真实语音还是欺骗语音。
3.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤B包括:
将测试语音通过上述欺骗语音检测模型提取得到相应的深度特征向量值;
利用已有的已知真伪的语音数据训练一个分类器,将已有的已知真伪的语音数据中真实语音和欺骗语音分别通过上述欺骗语音检测模型提取得到相应的深度特征向量值,利用真实语音的深度特征向量值训练一个真实语音的分类模块,利用欺骗语音的深度特征向量值训练一个欺骗语音的分类模块;
提取测试语音深度特征向量值,提取的测试语音深度特征向量值分别在真实语音的分类模块和欺骗语音的分类模块上计算相似度,将该两个相似度之差异作为分类分数;
比较分类分数与预先设置的打分阈值,若分类分数大于打分阈值,则该测试语音为真实语音,若分类分数小于打分阈值,则该测试语音为欺骗语音。
4.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤A包括:
从用户已有的已知真伪的语音数据中提取一种高时间-频率分辨率的声学特征,将声学特征输入到一个特征网络分支,该特征网络分支的输出值直接输到后续隐藏层,以建立欺骗语音检测模型。
5.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤A6中的结合梯度控制单元的多任务学习包括:
在前向传播中,当前辅助任务网络分支的表征向量会通过梯度控制单元传播到当前主任务网络分支上,并与当前任务网络分支的表征向量加权相加;在后向传播中,传播到当前辅助任务网络分支的梯度可人为设置,即被梯度控制单元抑制而绕过当前辅助任务网络分支,直接后向传播到深度神经网络其余所有隐藏层。
6.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法,其特征在于:所述步骤A1中,提取训练集所有语音样本的高时间-频率分辨率的两种声学特征,两种声学特征为梅尔频率倒谱系数和梅尔频率滤波器组;而且,设置相应的提取帧移为4毫秒,每帧滤波器组数为160个,离散余弦变换后为40维度的高时频分辨率的声学特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910590712.6/1.html,转载请声明来源钻瓜专利网。