[发明专利]一种基于多模融合深度特征的移动设备源识别方法及系统有效
申请号: | 201910797827.2 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110534101B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 王志锋;湛健;刘清堂;魏艳涛;叶俊民;闵秋莎;邓伟;田元;夏丹 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/02;G10L15/16;G10L25/24;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 融合 深度 特征 移动 设备 识别 方法 系统 | ||
1.一种基于多模融合深度特征的移动设备源识别方法,其特征在于,所述基于多模融合深度特征的移动设备源识别方法通过提取测试数据MFCCs和GSV特征,并将所述测试数据MFCCs和GSV特征对应分割为多路;
然后分别训练CNN并融合得到融合深度特征,随后使用训练好的深度残差网络进行判决;
最后将各路短样本的判决结果采用投票法进行联合决策;
所述基于多模融合深度特征的移动设备源识别方法具体包括以下步骤:
步骤1:对大量无关设备的语音信号预处理提取特征信息;
步骤2:利用训练的语音信号训练GMM-UBM模型;
步骤3:对目标语音训练信号预处理提取MFCCs特征信息;
步骤4:将目标语音训练信号的MFCCs特征数据分割为n个短样本;
步骤5:计算目标手机语音信号特定的GMM模型;
步骤6:提取高斯分量;
步骤7:使用高斯超矢量构建基于GSV特征的卷积神经网络;
步骤8:使用基于GSV特征的卷积神经网络提取深度GSV特征;
步骤9:使用MFCCs特征构建基于MFCCs特征的卷积神经网络;
步骤10:使用基于MFCCs特征的卷积神经网络提取深度MFCCs特征;
步骤11:将深度GSV特征和深度MFCCs特征进行融合得到多模态融合的深度特征作为训练数据集;
步骤12:使用训练数据集构建深度残差网络;
步骤13:提取测试语音信号的MFCCs特征并将测试语音信号的单个MFCCs特征分割为m个短数据样本;
步骤14:使用短样本MFCCs特征和基于MFCCs特征的卷积神经网络提取深度MFCC特征;
步骤15:使用短样本MFCCs特征和GMM-UBM模型训练GMM模型并提取GSV特征;
步骤16:使用GSV特征和训练得到的基于GSV特征的卷积神经网络提取深度GSV特征;
步骤17:将深度MFCCs特征和深度GSV特征进行融合得到多模态深度融合特征;
步骤18:将训练好的深度残差网络对深度融合特征进行判决,得到m个判决结果;
步骤19:对m多模态深度融合特征的m个判决结果采用投票判决方式得到最终结果。
2.如权利要求1所述的基于多模融合深度特征的移动设备源识别方法,其特征在于,步骤1具体包括:
步骤1.1:对大量无关设备的语音信号加窗分帧进行预处理,然后进行短时傅里叶变换;为了控制数据量,加窗的窗长设为256,帧移为128,窗函数选择下式的汉明窗,然后进行傅里叶变换;
步骤1.2:根据下式对步骤1.1中频域信号提取MFCCs特征,首先提取语音信号的MFCCs特征,选择12个系数再加上F0的能量,同时保留一阶和二阶的系数,所以总共39维数据;
步骤2具体包括:
步骤2.1:利用步骤1.2中的MFCCs特征训练一个包含64个高斯模型的GMM模型作为通用背景模型;高斯混合模型是通过多个加权后的高斯模型进行组合的一个概率分布模型;先训练一个最基本的录音GMM模型作为通用背景模型;一个具有M个高斯,特征数据为D维的GMM模型表示为如下形式:
式中x为输入的N*D维的特征矢量;λ={wi,ui,∑i},wi为高斯混合模型的权重,且满足最终得到的参数大小为D*1维;ui为每个高斯分量的均值,大小为M*D维;Σi为每个高斯分量的方差,大小为M*D维;pi(x)为每个高斯模型的概率密度,且满足
(x-ui)′为(x-ui)的转置,|Σi|和(Σi)-1为Σi的行列式和逆矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910797827.2/1.html,转载请声明来源钻瓜专利网。