[发明专利]语音对抗样本生成方法及装置、电子设备及存储介质有效
申请号: | 202210201797.6 | 申请日: | 2022-03-03 |
公开(公告)号: | CN114267363B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 傅睿博;陶建华;易江燕 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L25/24;G10L25/30;G06N3/08 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 邓菊香 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 对抗 样本 生成 方法 装置 电子设备 存储 介质 | ||
本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。
技术领域
本公开涉及语音技术领域,尤其涉及一种语音对抗样本生成方法及装置、电子设备及存储介质。
背景技术
目前,语音生成检测模型为了捕获更有区分度的信息,使用多种用于语音信号处理的声学特征,用于语音生成检测的声学特征直接送入模型或作为判别依据。在生成语音对抗样本时,语音合成模型通常只选取一种语音声学特征进行声学模型建模,并用声码器将该参数重构成语音波形,这就导致若语音合成模型采用的声学参数与语音生成检测模型所用的声学参数不一致情况下,由于生成语音所用的检测特征的参数与真实语音差异较大,极易被语音生成检测模型所检测,无法对语音生成检测系统进行欺骗。
另外,现有技术主要通过对误差阈值增加随机扰动,对误差进行钳位等操作来生成语音对抗样本,属于被动加入对抗样本,虽然在一定程度可以欺骗语音生成检测模型,但加入的噪声易造成生成语音听感下降,从人类主观角度易被识别检测,且该方法未从语音生成检测机理出发,对抗样本生成过于局限性,只能有效欺骗部分给定的语音生成检测模型。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种语音对抗样本生成方法及装置、电子设备及存储介质。
第一方面,本公开的实施例提供了一种语音对抗样本生成方法,包括以下步骤:
接收目标文本,并从所述目标文本中提取文本特征序列;
将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;
将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本。
在一种可能的实施方式中,所述声学模型包括骨干网络、自注意力机制层和全连接层,所述将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列,包括:
将所述文本特征序列输入骨干网络中,得到中间多维声学参数序列;
将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵;
将向量相关性矩阵和中间多维声学参数矩阵输入全连接层,得到多维声学参数序列。
在一种可能的实施方式中,所述将中间多维声学参数序列输入自注意力机制层,得到向量相关性矩阵和中间多维声学参数矩阵,包括:
对于中间多维声学参数序列中的向量,分别乘以三个权重系数得到三个向量:
根据中间多维声学参数序列中向量对应的形成矩阵Q;
根据中间多维声学参数序列中向量对应的形成矩阵K;
根据中间多维声学参数序列中向量对应的形成矩阵V,作为中间多维声学参数矩阵;
根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性:
其中,为中间多维声学参数序列中第i个向量与第j个向量之间的相关性;为中间多维声学参数序列中第i个向量乘以得到的向量,为中间多维声学参数序列中第j个向量乘以得到的向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210201797.6/2.html,转载请声明来源钻瓜专利网。