[发明专利]一种基于卷积神经网络的翻录语音检测方法在审
申请号: | 201711323563.4 | 申请日: | 2017-12-13 |
公开(公告)号: | CN108198561A | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 王让定;李璨;严迪群;林朗 | 申请(专利权)人: | 宁波大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L25/18;G10L17/04;G10L17/00;G10L17/02 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙) 33226 | 代理人: | 周珏 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 原始语音 负样本 正样本 训练模型 语音检测 训练集 语音库 构建 语音 分类结果 文本限制 测试集 准确率 偷录 样本 测试 检测 | ||
1.一种基于卷积神经网络的翻录语音检测方法,其特征在于包括以下步骤:
①构建原始语音库和翻录语音库:在安静环境下,使用采集设备对录音人员进行原始语音采集,共采集得到N1个不同内容的原始语音,将N1个不同内容的原始语音构成原始语音库;按照实际过程模拟偷录过程,在使用采集设备对录音人员进行原始语音采集的同时,使用至少两种偷录设备对录音人员进行语音偷录,然后使用至少一种回放设备对偷录的语音进行语音回放,再使用同一种采集设备对回放的语音进行语音采集,共采集得到N2个翻录语音,将N2个翻录语音构成翻录语音库;其中,N1≥1000,N2≥2N1;
②提取原始语音库中的每个原始语音的语谱图,并提取翻录语音库中的每个翻录语音的语谱图;然后将每个原始语音的语谱图作为一个正样本,将每个翻录语音的语谱图作为一个负样本;再将从N1个正样本中随机选取50~70%的正样本和从N2个负样本中随机选取50~70%的负样本构成训练集,将剩余的正样本和剩余的负样本构成测试集;
③构建卷积神经网络框架训练模型:
第一步,搭建第一层卷积层:首先,设置第一层卷积层中的滤波器的总个数;其次,设置第一层卷积层中的卷积核的大小;再次,确定第一层卷积层的输出与Relu激活函数的关系,描述为:其中,1≤p≤P,P表示训练集中包含的样本的总个数,1≤j≤M1,M1表示第一层卷积层中的滤波器的总个数,f()为Relu激活函数的表示形式,xp表示训练集中的第p个样本,符号“*”为卷积运算符号,k(1)表示第一层卷积层中的卷积核的大小,表示的偏置,表示xp经第一层卷积层后第一层卷积层输出的第j幅特征图,xp经第一层卷积层后对应得到M1幅特征图;
第二步,搭建第二层卷积层:首先,设置第二层卷积层中的滤波器的总个数;其次,设置第二层卷积层中的卷积核的大小;再次,确定第二层卷积层的输出与Relu激活函数的关系,描述为:其中,1≤i≤M2,M2表示第二层卷积层中的滤波器的总个数,k(2)表示第二层卷积层中的卷积核的大小,表示的偏置,表示经第二层卷积层后第二层卷积层输出的第i幅特征图,经第二层卷积层后对应得到M2幅特征图;
第三步,搭建池化层:首先,设置池化层中的卷积核的大小;其次,确定所采用的池化算法;再次,将第二层卷积层的输出作为池化层的输入,得到池化层的输出;
第四步,搭建全连接层:首先,设置全连接层中的隐层节点数;其次,确定所采用的损失函数;再次,将池化层的输出作为全连接层的输入,得到全连接层的输出,至此得到卷积神经网络框架训练模型;
④将测试集中的每个样本作为输入,输入到卷积神经网络框架训练模型中,得到原始语音与翻录语音的分类结果。
2.根据权利要求1所述的一种基于卷积神经网络的翻录语音检测方法,其特征在于所述的步骤③中,第一层卷积层中的滤波器的总个数为32,第一层卷积层中的卷积核的大小为1×11;第二层卷积层中的滤波器的总个数为64,第二层卷积层中的卷积核的大小为2×6;池化层中的卷积核的大小为1×4,所采用的池化算法为最大池化算法;全连接层中的隐层节点数为256,所采用的损失函数为SoftMax回归函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711323563.4/1.html,转载请声明来源钻瓜专利网。