[发明专利]一种语音对抗样本检测方法、系统、存储介质及应用在审
申请号: | 202110058215.9 | 申请日: | 2021-01-16 |
公开(公告)号: | CN112908300A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 裴庆祺;刘杰;肖阳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/20;G10L15/16;G10L15/26;G10L15/08;G10L25/24 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 何畏 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 对抗 样本 检测 方法 系统 存储 介质 应用 | ||
1.一种语音对抗样本检测方法,其特征在于,所述语音对抗样本检测方法首先读取输入的音频并进行谱减法降噪;接着对降噪前后的音频进行mfcc特征提取,然后输入到语音识别系统Deep Speech中得到转录文本;接着,根据转录文本计算相似度;根据初始输入音频的mfcc特征矩阵计算对抗度;最后,加载音频对抗样本二分类网络的模型和参数,将相似度和对抗度输入二分类网络中,预测音频是否为对抗样本。
2.如权利要求1所述的语音对抗样本检测方法,其特征在于,所述语音对抗样本检测方法具体包括:
读取输入的音频audioori,对输入音频进行谱减法降噪得audioden;
提取audioori和audioden的音频mfcc特征矩阵feaori和feaden;
加载Deep Speech语音识别系统的深度神经网络模型和参数,同时将提取的音频mfcc特征矩阵feaori和feaden输入到Deep Speech语音识别系统中,得到转录文本phraseori和phraseden;
根据转录文本phraseori和phraseden计算相似度ratiosim;
根据音频mfcc特征矩阵feaori计算对抗度ratioadv;
加载音频对抗样本二分类网络的模型和参数,输入相似度ratiosim和对抗度ratioadv,预测音频audioori是否为对抗样本。
3.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述读取输入的音频audioori时,采用python语言中scipy库中的scipy.io.savfile函数;
所述谱减法降噪采用Berouti的改进方法,公式如下:
其中,|Y(ω)|2为带噪音频的功率谱,|X(ω)|2为纯净音频的功率谱,|D(ω)|2为加性噪声的功率谱,α为过减因子,β为谱下限参数。
4.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取,得到N×M维音频mfcc特征矩阵,其中,N与输入音频的长度有关,M取固定值40维;
所述相似度ratiosim基于编辑距离和WER的思维进行改进,进行简单的归一化处理,计算公式如下:
其中,S为替换的字数,D为删除的字数,I为插入的字数,C为正确的字数,N为S+D+C的字数。
5.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述对抗度ratioadv通过进一步压缩提取的音频mfcc特征矩阵而来,具体计算公式如下:
其中,fea为音频mfcc特征矩阵,N为提取的fea的第一维度。
6.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述音频对抗样本二分类网络,其训练所需的良性音频数据集源于Mozilla发起的Common Voice项目中的公共数据集以及Google的语音识别mini speech commands数据集,训练所需的对抗样本数据集通过现有的几种对抗样本的生成方法攻击所得,接着生成数据集对应的相似度ratiosim和对抗度ratioadv,辅之以标签,选取二分类网络架构进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110058215.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种灌注桩施工工艺及其施工用辅助装置
- 下一篇:天线结构及天线阵列