[发明专利]一种用于语音测谎的栈式去噪自编码器及深度神经网络结构有效
申请号: | 201910518672.4 | 申请日: | 2019-06-15 |
公开(公告)号: | CN110246509B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 方元博;陶华伟;傅洪亮;雷沛之;姜芃旭 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G10L19/012 | 分类号: | G10L19/012;G10L15/02;G10L25/30;G10L25/51;G06K9/62 |
代理公司: | 郑州科维专利代理有限公司 41102 | 代理人: | 赵继福 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 语音 栈式去噪 编码器 深度 神经网络 结构 | ||
现有的语音谎言检测算法常采用的特征是组合特征,特征冗余较大,针对这一问题,本发明公布了一种面向语音谎言检测的栈式去噪自编码及深度神经网络(SDAE‑DNN)结构。它包含有两层的编码和解码网络以及后接DNN网络。该结构首先使用两层去噪自编码结构降低特征的冗余,其中为了防止过拟合,在栈式去噪自编码器的每一个网络层都增加了dropout,然后采用一层DNN网络进一步学习特征,最后使用softmax分类器对网络进行微调,得到了更加具有表征性的特征,从而提升网络对于谎言的识别效果。
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种用于语音测谎的栈式去噪自编码器及深度神经网络结构。
背景技术
长期以来,心理学家对人类的欺骗行为及其检测一直很感兴趣。社会心理学研究已经证实说谎是日常社会交往的一个共同特征,但人们并不善于对谎言进行鉴别。谎言的识别对于防止电话诈骗、辅助刑侦案件处理以及情报分析有着重要的意义,因此对于测谎的研究是目前的研究热点。
在语音谎言检测领域,特征提取及分类识别是其核心步骤。目前,语音识别常采用的特征是组合特征,特征是否有效很大程度上依赖于经验和运气,而且组合特征的维数较大,直接使用会使识别器的计算量大大增加,还可能会遇到维数灾难和过拟合等问题。面对这些问题,常采用特征降维方法对特征进行预处理,常用的降维方法有主成分分析(Principal Comonent,PCA)、线性判别式分析(Linear Discriminiant Analysis,LDA)、局部线性嵌入(Locally linear embedding,LLE)。但以上的特征预处理方法对识别率虽有一定的提高,但还远远达不到人类识别的精度。因此,如何提高特征表征性并提高识别率,仍然亟待研究。
因此本发明主要关注于提取了表征性更好的特征以实现更优秀的语音测谎工作。
发明内容:
由于DNN是高度非线性且非凸的,初始化点可能很大程度地影响最终网络的效果。输入到DNN的数据影响着最终的分类效果。针对单一DNN结构影响语音谎言识别率的问题,本文提出一种结合栈式去噪自编码器和深度神经网络的结构。原始特征经过栈式去噪自编码器后,最终得到的特征维度较小,更有表征性。在DNN之前经过训练好的SDAE的处理,可看作对DNN进行预训练。也就是把SDAE的最后一个去噪自编码器的编码权重矩阵当作DNN第一个隐藏层的权重矩阵,这样相当于把DNN权重调整到一个较好的初始点。并潜在的使用生成性预训练准则正则化DNN训练过程,从而加速训练过程,节约时间成本,优化DNN的识别效果。
“SDAE-DNN”结构中的栈式去噪自编码器是提前训练完成的。具体步骤可分为预训练和微调,前者为无监督贪婪逐层训练,该方式比随机初始化更加合理有效。提高了梯度传播的效率。后者根据标签及softmax分类器输出的结果对比进行有监督训练,进一步的,与语音情感识别的多分类不同,语音测谎只需要判断出该语音是真话还是谎言即可,这样在训练样本较小的情况下会产生过拟合,因此我们谨慎的在SDAE的每层都加入一定比率的dropout使某些隐层神经单元以一定的概率暂停工作,达到防止过拟合的作用,这个改动对于正确率的提升也十分重要。此外,在网络中我们使用批归一化以达到加速训练的作用。利用反向传播算法进行权重矩阵w和偏置向量b参数的更新,完成微调获得更加强健的SDAE结构。参数更新公式如下所示:
其中α为学习率,为误差函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910518672.4/2.html,转载请声明来源钻瓜专利网。