[发明专利]一种基于卷积神经网络的翻录语音检测方法在审

申请号：	201711323563.4	申请日：	2017-12-13
公开（公告）号：	CN108198561A	公开（公告）日：	2018-06-22
发明（设计）人：	王让定;李璨;严迪群;林朗	申请（专利权）人：	宁波大学
主分类号：	G10L17/18	分类号：	G10L17/18;G10L25/18;G10L17/04;G10L17/00;G10L17/02
代理公司：	宁波奥圣专利代理事务所(普通合伙) 33226	代理人：	周珏
地址：	315211 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于卷积神经网络的翻录语音检测方法，其先构建原始语音库和翻录语音库；然后提取原始语音库中的每个原始语音的语谱图作为正样本，提取翻录语音库中的每个翻录语音的语谱图作为负样本，选择一部分正样本和负样本构成训练集，剩余部分正样本和负样本构成测试集；接着根据训练集和卷积神经网络框架，构建卷积神经网络框架训练模型；再将测试集中的每个样本作为输入，输入到卷积神经网络框架训练模型中，得到分类结果；优点是其能够在不受文本限制的情况下，针对多种偷录设备的翻录语音均具有较高的检测准确率。
搜索关键词：	卷积神经网络原始语音负样本正样本训练模型语音检测训练集语音库构建语音分类结果文本限制测试集准确率偷录样本测试检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于卷积神经网络的翻录语音检测方法，其特征在于包括以下步骤：①构建原始语音库和翻录语音库：在安静环境下，使用采集设备对录音人员进行原始语音采集，共采集得到N1个不同内容的原始语音，将N1个不同内容的原始语音构成原始语音库；按照实际过程模拟偷录过程，在使用采集设备对录音人员进行原始语音采集的同时，使用至少两种偷录设备对录音人员进行语音偷录，然后使用至少一种回放设备对偷录的语音进行语音回放，再使用同一种采集设备对回放的语音进行语音采集，共采集得到N2个翻录语音，将N2个翻录语音构成翻录语音库；其中，N1≥1000，N2≥2N1；②提取原始语音库中的每个原始语音的语谱图，并提取翻录语音库中的每个翻录语音的语谱图；然后将每个原始语音的语谱图作为一个正样本，将每个翻录语音的语谱图作为一个负样本；再将从N1个正样本中随机选取50～70％的正样本和从N2个负样本中随机选取50～70％的负样本构成训练集，将剩余的正样本和剩余的负样本构成测试集；③构建卷积神经网络框架训练模型：第一步，搭建第一层卷积层：首先，设置第一层卷积层中的滤波器的总个数；其次，设置第一层卷积层中的卷积核的大小；再次，确定第一层卷积层的输出与Relu激活函数的关系，描述为：其中，1≤p≤P，P表示训练集中包含的样本的总个数，1≤j≤M₁，M₁表示第一层卷积层中的滤波器的总个数，f()为Relu激活函数的表示形式，x_p表示训练集中的第p个样本，符号“*”为卷积运算符号，k⁽¹⁾表示第一层卷积层中的卷积核的大小，表示的偏置，表示x_p经第一层卷积层后第一层卷积层输出的第j幅特征图，x_p经第一层卷积层后对应得到M₁幅特征图；第二步，搭建第二层卷积层：首先，设置第二层卷积层中的滤波器的总个数；其次，设置第二层卷积层中的卷积核的大小；再次，确定第二层卷积层的输出与Relu激活函数的关系，描述为：其中，1≤i≤M₂，M₂表示第二层卷积层中的滤波器的总个数，k⁽²⁾表示第二层卷积层中的卷积核的大小，表示的偏置，表示经第二层卷积层后第二层卷积层输出的第i幅特征图，经第二层卷积层后对应得到M₂幅特征图；第三步，搭建池化层：首先，设置池化层中的卷积核的大小；其次，确定所采用的池化算法；再次，将第二层卷积层的输出作为池化层的输入，得到池化层的输出；第四步，搭建全连接层：首先，设置全连接层中的隐层节点数；其次，确定所采用的损失函数；再次，将池化层的输出作为全连接层的输入，得到全连接层的输出，至此得到卷积神经网络框架训练模型；④将测试集中的每个样本作为输入，输入到卷积神经网络框架训练模型中，得到原始语音与翻录语音的分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于宁波大学，未经宁波大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711323563.4/，转载请声明来源钻瓜专利网。

上一篇：基于声纹识别的录音优化方法及其录音优化系统
下一篇：一种用于实时定位辨识动物舍内异常声音的方法及系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于卷积神经网络的翻录语音检测方法在审

专利文献下载