[发明专利]基于语音声学特征压缩的语音对抗样本防御方法及应用在审
申请号: | 202111060044.X | 申请日: | 2021-09-10 |
公开(公告)号: | CN114242083A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 宋富;陈光科;赵哲 | 申请(专利权)人: | 上海科技大学 |
主分类号: | G10L19/018 | 分类号: | G10L19/018;G10L25/03;G10L25/12;G10L25/24;G06K9/62 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 201210 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 声学 特征 压缩 对抗 样本 防御 方法 应用 | ||
本发明涉及一种基于语音声学特征压缩的语音对抗样本防御方法。本发明的另一个技术方案是提供了一种上述的基于语音声学特征压缩的语音对抗样本防御方法的应用。考虑到图像和语音的差异以及现有的防御语音对抗样本的输入变换方法存在的局限性,本发明在语音声学特征层级而非语音波形层级对输入语音进行变换,从而实现在语音声学特征层级对语音对抗样本进行防御,在保证语音系统对正常语音的表现性能的基础上,消除语音对抗样本中的对抗扰动,防御语音对抗样本,进而提高语音系统对语音对抗样本的鲁棒性。
技术领域
本发明涉及一种基于语音声学特征压缩的语音对抗样本防御方法。
背景技术
目前机器学习,特别是深度学习,被越来越多地运用到各种应用领域,如图像分类、语音识别和声纹识别,且在某些任务上的表现超过人类。然而,机器学习模型,包括深度神经网络,已经被证明常常缺乏对对抗样本的鲁棒性。以语音识别为例,攻击者向一段包含“播放歌曲XXX”文本内容的语音中加入微小的扰动,生成对抗语音;尽管对人类听觉来说,对抗语音的文本内容没有改变,但是语音识别模型会将其识别为“向YYY转账ZZZ元”。以声纹识别为例,正常情况下,来自假冒者的语音无法通过受害者的声纹识别模型的验证;攻击者往假冒者的语音中加入扰动,生成对抗语音;尽管对人类听觉来说,对抗语音听起来还是来自假冒者,但是受害者的声纹识别模型会将其识别为来自受害者,从而通过验证,攻击者进而可以获取受害者的权限。
为了消除对抗样本带来的安全隐患,研究者提出了各种防御方法,其中包括输入变换。输入变换指的是在模型推理阶段,输入样本馈送给模型进行识别决策前,先对输入样本进行预处理,从而使得输入样本中的对抗扰动丢失,达到防御目的。
在图像领域,JPEG压缩和局部平滑等输入变换方法已经被成功应用于消除图像对抗样本的影响。受此启发,MP3压缩和中值平滑等输入变换方法也被用于防御语音对抗样本。然而,现有的防御语音对抗样本的输入变换方法没有考虑图像和语音系统之间的差异。因此,现有的输入变换方法仅作用于语音波形信号,而没有考虑在语音声学特征层面做变换。对于目前主流的基于神经网络的图像识别来说,输入的图像被直接馈送到系统,不需要人工特征工程,换句话说,特征工程由神经网络内部的神经元自动完成。与此相反,语音信号随时间变化的非平稳特性导致其对噪声和其他扰动的鲁棒性较弱,语音波形信号本身不能有效地表征文本内容或说话人的特征。因此,为了获得更好的特征表示能力和系统性能,语音识别、声纹识别等语音系统通常依靠特征工程从语音波形中提取语音声学特征,例如语音频谱图、滤波器组系数(Filter-Bank)、梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)和感知线性预测系数(Perceptual Linear Predictive,PLP)。
由于语音系统的广泛部署,语音对抗样本给部署了语音系统的应用带来了不可忽视的安全隐患。如何有效防御语音对抗样本,进而提高系统的鲁棒性亟待解决。
发明内容
本发明要解决的技术问题是:现有的防御语音对抗样本的输入变换方法没有考虑到语音和图像的区别,因此直接在语音波形层级进行变换。
为了解决上述技术问题,本发明的技术方案提供了一种基于语音声学特征压缩的语音对抗样本防御方法,其特征在于,包括以下步骤:
步骤1:获得输入语音的声学特征矩阵,该声学特征矩阵的维度为N×D,N代表该段输入语音被分帧为N帧,D代表每帧的特征矢量长度;使用聚类算法将声学特征矩阵的N个特征矢量划分为K组,K<<N,进而达到将N帧声学特征压缩到K帧的目的;
步骤2:计算K组特征矢量中每一组特征矢量的代表特征矢量,由于属于同一组的特征矢量具有相似的属性,而属于不同组的特征矢量具有非常不同的属性,将代表特征矢量定义为能表征同一组的所有特征矢量的共同属性的特征矢量;
步骤3:将K个代表特征矢量进行叠加,得到压缩后的语音声学特征矩阵Z,该语音声学特征矩阵Z的维度为K×D;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海科技大学,未经上海科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111060044.X/2.html,转载请声明来源钻瓜专利网。