[发明专利]一种基于深度学习的人工合成声纹检测系统及方法有效
申请号: | 201910527094.0 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110289004B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 翁健;林越;郑晓鹏;罗晓峰;陈俊颖;温钊迪;罗伟其 | 申请(专利权)人: | 暨南大学 |
主分类号: | G10L17/12 | 分类号: | G10L17/12;G10L17/26;G10L17/04;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 人工合成 声纹 检测 系统 方法 | ||
1.一种基于深度学习的人工合成声纹检测系统,其特征在于,包括自编码器、生成器和辨别器,所述自编码器包括编码器和解码器,所述生成器用于生成虚假特征向量,所述辨别器用于根据真实及虚假的人工合成声纹的特征向量计算得到均方差和交叉熵损失值;
所述编码器包括编码器第一卷积层、编码器批归一化层、编码器第一最大池化层、编码器第二卷积层、编码器第二最大池化层和编码器全连接层;
所述解码器包括解码器嵌入层、解码器全连接层、解码器批归一化层、解码器第一反卷积层序列、解码器第二反卷积层序列和解码器卷积层序列;
所述生成器结构与解码 器结构相同;
所述辨别器包括辨别器嵌入层、辨别器全连接层、辨别器第一卷积层序列、辨别器第二卷积层序列、多分类器和辨别器输出层。
2.根据权利要求1所述的基于深度学习的人工合成声纹检测系统,其特征在于,所述编码器第一卷积层和编码器第二卷积层的卷积核大小均设置为3x3,所述编码器批归一化层的核心大小设置为4,所述编码器第一最大池化层与编码器第二最大池化层的核心大小均设置为3x3,所述编码器全连接层设置有110维输入和27*27维输出。
3.根据权利要求1所述的基于深度学习的人工合成声纹检测系统,其特征在于,所述解码器嵌入层设置有10维输入和10维输出,所述解码器全连接层设置有100维输入和32*32维输出,所述解码器批归一化层的核心大小设置为1;
所述解码器第一反卷积层序列包括反卷积核为3x3的反卷积层、卷积核为3x3的卷积层以及核心大小为64的批归一化层;
所述解码器第二反卷积层序列包括反卷积核为3x3的反卷积层、卷积核为3x3的卷积层以及核心大小为32的批归一化层;
所述解码器卷积层序列设有卷积核为3x3的卷积层。
4.根据权利要求3所述的基于深度学习的人工合成声纹检测系统,其特征在于,在每一个反卷积层序列中加入0.4的随机失活值,激活函数采用线性整流函数,Adam优化器的学习率设定为0.001。
5.根据权利要求1所述的基于深度学习的人工合成声纹检测系统,其特征在于,所述辨别器嵌入层设有10维one-hot输入和10维输出,所述辨别器全连接层设有256维输入和256维输出,用于连接输入数据的特征向量和映射后的数据标签;
所述辨别器第一卷积层序列包括卷积核大小为3x3的卷积层、核心大小为4的批归一化层以及核心大小为3x3的平均池化层;
所述辨别器第二卷积层序列包括卷积核大小为3x3的卷积层、核心大小为4的批归一化层以及核心大小为3x3的平均池化层;
所述多分类器包括:设有32维输入和32维输出的多分类器第一全连接层,以及设有32维输入和10维输出的多分类器第二全连接层,所述多分类器输出激活函数采用L1Loss函数;
所述辨别器输出层包括:设有32维输入和10维输出的辨别器输出层第一全连接层,以及设有10维输出和1维输出的辨别器输出层第二全连接层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910527094.0/1.html,转载请声明来源钻瓜专利网。