[发明专利]语音对抗样本生成方法及装置、电子设备及存储介质有效

申请号：	202210201797.6	申请日：	2022-03-03
公开（公告）号：	CN114267363B	公开（公告）日：	2022-05-24
发明（设计）人：	傅睿博;陶建华;易江燕	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L19/16	分类号：	G10L19/16;G10L25/24;G10L25/30;G06N3/08
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	邓菊香
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音对抗样本生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质，所述方法包括：接收目标文本，并从所述目标文本中提取文本特征序列；将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列；将所述多维声学参数序列输入预先训练好的声码器模型，生成语音的时域采样序列，作为目标文本对应的对抗样本，声学模型的输出为多维声学参数序列，使得生成的语音内容在多种声学特征维度描述下保证高相似度（匹配度），因而，在语音对抗样本的生成过程中利用多维声学参数重构方法，能够提升语音对抗样本的抗检测能力，更加有效对语音生成检测模型进行欺骗。

技术领域

本公开涉及语音技术领域，尤其涉及一种语音对抗样本生成方法及装置、电子设备及存储介质。

背景技术

目前，语音生成检测模型为了捕获更有区分度的信息，使用多种用于语音信号处理的声学特征，用于语音生成检测的声学特征直接送入模型或作为判别依据。在生成语音对抗样本时，语音合成模型通常只选取一种语音声学特征进行声学模型建模，并用声码器将该参数重构成语音波形，这就导致若语音合成模型采用的声学参数与语音生成检测模型所用的声学参数不一致情况下，由于生成语音所用的检测特征的参数与真实语音差异较大，极易被语音生成检测模型所检测，无法对语音生成检测系统进行欺骗。

另外，现有技术主要通过对误差阈值增加随机扰动，对误差进行钳位等操作来生成语音对抗样本，属于被动加入对抗样本，虽然在一定程度可以欺骗语音生成检测模型，但加入的噪声易造成生成语音听感下降，从人类主观角度易被识别检测，且该方法未从语音生成检测机理出发，对抗样本生成过于局限性，只能有效欺骗部分给定的语音生成检测模型。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种语音对抗样本生成方法及装置、电子设备及存储介质。

第一方面，本公开的实施例提供了一种语音对抗样本生成方法，包括以下步骤：

接收目标文本，并从所述目标文本中提取文本特征序列；

将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列；

将所述多维声学参数序列输入预先训练好的声码器模型，生成语音的时域采样序列，作为目标文本对应的对抗样本。

在一种可能的实施方式中，所述声学模型包括骨干网络、自注意力机制层和全连接层，所述将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列，包括：

将所述文本特征序列输入骨干网络中，得到中间多维声学参数序列；

将中间多维声学参数序列输入自注意力机制层，得到向量相关性矩阵和中间多维声学参数矩阵；

将向量相关性矩阵和中间多维声学参数矩阵输入全连接层，得到多维声学参数序列。

在一种可能的实施方式中，所述将中间多维声学参数序列输入自注意力机制层，得到向量相关性矩阵和中间多维声学参数矩阵，包括：

对于中间多维声学参数序列中的向量，分别乘以三个权重系数得到三个向量：