[发明专利]一种基于卷积神经网络的翻录语音检测方法在审
申请号: | 201711323563.4 | 申请日: | 2017-12-13 |
公开(公告)号: | CN108198561A | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 王让定;李璨;严迪群;林朗 | 申请(专利权)人: | 宁波大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L25/18;G10L17/04;G10L17/00;G10L17/02 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙) 33226 | 代理人: | 周珏 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于卷积神经网络的翻录语音检测方法,其先构建原始语音库和翻录语音库;然后提取原始语音库中的每个原始语音的语谱图作为正样本,提取翻录语音库中的每个翻录语音的语谱图作为负样本,选择一部分正样本和负样本构成训练集,剩余部分正样本和负样本构成测试集;接着根据训练集和卷积神经网络框架,构建卷积神经网络框架训练模型;再将测试集中的每个样本作为输入,输入到卷积神经网络框架训练模型中,得到分类结果;优点是其能够在不受文本限制的情况下,针对多种偷录设备的翻录语音均具有较高的检测准确率。 | ||
搜索关键词: | 卷积神经网络 原始语音 负样本 正样本 训练模型 语音检测 训练集 语音库 构建 语音 分类结果 文本限制 测试集 准确率 偷录 样本 测试 检测 | ||
【主权项】:
1.一种基于卷积神经网络的翻录语音检测方法,其特征在于包括以下步骤:①构建原始语音库和翻录语音库:在安静环境下,使用采集设备对录音人员进行原始语音采集,共采集得到N1个不同内容的原始语音,将N1个不同内容的原始语音构成原始语音库;按照实际过程模拟偷录过程,在使用采集设备对录音人员进行原始语音采集的同时,使用至少两种偷录设备对录音人员进行语音偷录,然后使用至少一种回放设备对偷录的语音进行语音回放,再使用同一种采集设备对回放的语音进行语音采集,共采集得到N2个翻录语音,将N2个翻录语音构成翻录语音库;其中,N1≥1000,N2≥2N1;②提取原始语音库中的每个原始语音的语谱图,并提取翻录语音库中的每个翻录语音的语谱图;然后将每个原始语音的语谱图作为一个正样本,将每个翻录语音的语谱图作为一个负样本;再将从N1个正样本中随机选取50~70%的正样本和从N2个负样本中随机选取50~70%的负样本构成训练集,将剩余的正样本和剩余的负样本构成测试集;③构建卷积神经网络框架训练模型:第一步,搭建第一层卷积层:首先,设置第一层卷积层中的滤波器的总个数;其次,设置第一层卷积层中的卷积核的大小;再次,确定第一层卷积层的输出与Relu激活函数的关系,描述为:其中,1≤p≤P,P表示训练集中包含的样本的总个数,1≤j≤M1,M1表示第一层卷积层中的滤波器的总个数,f()为Relu激活函数的表示形式,xp表示训练集中的第p个样本,符号“*”为卷积运算符号,k(1)表示第一层卷积层中的卷积核的大小,表示的偏置,表示xp经第一层卷积层后第一层卷积层输出的第j幅特征图,xp经第一层卷积层后对应得到M1幅特征图;第二步,搭建第二层卷积层:首先,设置第二层卷积层中的滤波器的总个数;其次,设置第二层卷积层中的卷积核的大小;再次,确定第二层卷积层的输出与Relu激活函数的关系,描述为:其中,1≤i≤M2,M2表示第二层卷积层中的滤波器的总个数,k(2)表示第二层卷积层中的卷积核的大小,表示的偏置,表示经第二层卷积层后第二层卷积层输出的第i幅特征图,经第二层卷积层后对应得到M2幅特征图;第三步,搭建池化层:首先,设置池化层中的卷积核的大小;其次,确定所采用的池化算法;再次,将第二层卷积层的输出作为池化层的输入,得到池化层的输出;第四步,搭建全连接层:首先,设置全连接层中的隐层节点数;其次,确定所采用的损失函数;再次,将池化层的输出作为全连接层的输入,得到全连接层的输出,至此得到卷积神经网络框架训练模型;④将测试集中的每个样本作为输入,输入到卷积神经网络框架训练模型中,得到原始语音与翻录语音的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711323563.4/,转载请声明来源钻瓜专利网。