[发明专利]基于声纹识别对抗性样本的物理域身份伪装系统及方法在审
申请号: | 202210423843.7 | 申请日: | 2022-04-21 |
公开(公告)号: | CN114783447A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 卢立;陈钱牛;巴钟杰;林峰;任奎;其他发明人请求不公开姓名 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L17/02;G10L17/04 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 李亦慈;唐银益 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声纹 识别 对抗性 样本 物理 身份 伪装 系统 方法 | ||
1.一种基于声纹识别对抗性样本的物理域身份伪装系统,其特征在于,所述的系统包括离线训练部分和在线伪装部分:
所述的离线训练部分包括亚音素级扰动字典、音素识别器、对抗性样本生成器、声纹分类器、系统优化器和训练语料集;所述的信号自训练语料集输入音素识别器后输出携带音素对齐信息的对齐语音,对抗样本生成器将亚音素级扰动字典中的亚音素扰动按音素信息叠加到输入对抗性样本生成器中的对齐语音中生成对抗性样本,对抗性样本在声纹分类器中前向传播,输出经过系统优化器反向传播后用于优化亚音素级及扰动字典;
所述的在线伪装部分依托于便携式实时伪装设备,所述的伪装设备的软件组成包括音素识别器、实时音素对齐器和实时音素预测器;伪装者产生的实时语音输入音素识别器中产生实时音素序列,实时音素对齐器根据实时音素序列定位当前时刻音素,推导出待播放的音素序列,输入实时音素预测器,实时音素预测器基于根据实时音素序列和待播放的音素序列确定序列中每一个音素的具体时长,并从根据预测结果与人声同步播放亚音素级扰动,从而在物理域中合成具有信道鲁棒性、模型鲁棒性的对抗性样本,最终实现面向声纹识别系统的身份伪装。
2.根据权利要求1所述的基于声纹识别对抗性样本的物理域身份伪装系统,其特征在于,所述的离线训练部分还包括位于亚音素级扰动字典和对抗样本生成器之间的跨信道增强器,用于增强亚音素级扰动的信道鲁棒性,所述的跨信道增强器利用Maximum LengthSequence信号采集信道脉冲响应采集,并且采集过程同时包含了不同环境、不同设备以及不同距离条件。
3.根据权利要求1所述的基于声纹识别对抗性样本的物理域身份伪装系统,其特征在于,所述的声纹分类器是集成分类器,用于增强亚音素级扰动的跨模型迁徙能力,将对抗性样本同时输入多个模型架构、模型训练集不相同的预训练的声纹模型中进行前向传播,将输出的得分通过加权平均操作求和;其中,所述的模型架构为d-vector、x-vector和DeepSpeaker中的一种或多种,所述的模型训练集为VoxCeleb1/VoxCeleb2中的子集,所述的加权平均操作利用注意力机制在迭代过程中动态调整各个模型输出的权重;所述的伪装设备为搭载麦克风、扬声器以及处理芯片硬件设备的嵌入式设备。
4.一种基于声纹识别对抗性样本的物理域身份伪装方法,其特征在于,具体包括以下步骤:
离线训练部分:
1)亚音素级扰动字典为使用的每一个音素提供一个匹配的10-20ms长度的亚音素级扰动,初始化为符合正态分布的随机扰动;
2)为了增强扰动的抗信道干扰能力,在叠加到语音上以前,通过跨信道增强器,利用基于事先采集的信道脉冲响应模拟多种不同设备和房间环境的信道状态,对亚音素级扰动进行数据增广;
3)为了能够正确叠加亚音素级扰动到语音上,利用音素识别器从训练集语料中的每一条中提取音素信息,所述的音素信息包含音素种类和起讫时间戳,与原语音组成对齐语音;
4)通过对抗样本生成器将经过数据增广的亚音素级扰动与对齐语音按音素叠加,叠加方式为重复填充亚音素级扰动直至填满整个音素,输出对抗性样本;
5)为了提高跨模型迁移能力,对抗性样本通过集成分类器将其输入多个声纹识别模型后将多个模型的输出通过加权的形式集成为一个;
6)根据集成分类器的识别结果,系统优化器求解系统优化问题并更新对亚音素级扰动字典进行迭代更新,最终得到一个训练好的亚音素级扰动字典。
在线伪装部分:
7)伪装者事先录制同文本的语音,使用音素识别器提取出音素序列,包括语音中的所有音素和持续时间,作为标准音素序列,供实时伪装过程中参考;
8)伪装过程中开始,伪装者手持伪装设备口述预设口令,伪装设备通过麦克风实时接收语音;
9)语音信号通过音素识别器被识别为实时音素序列;
10)实时音素序列通过实时音素对齐器与事先给定的标准音素序列进行对齐,进而获得接下来说话人会说的待播放音素序列;
11)实时音素预测器基于实时音素序列、标准音素序列和持续时间待估计的待播放音素序列,估计出待播放音素序列中的音素的持续时间;
12)根据音素序列及其各音素的持续时间,伪装设备通过扬声器准确播放出对应的亚音素级对抗性扰动,最终实现与实时语音的在线同步过程,达到物理域流式伪装攻击的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210423843.7/1.html,转载请声明来源钻瓜专利网。