[发明专利]一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法有效
申请号: | 202010974747.2 | 申请日: | 2020-09-16 |
公开(公告)号: | CN112101462B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 王松;胡燕祝;徐小凤 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/80;G06V10/82;G06N3/04;G10L17/18;G10L17/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bmfcc gbfb dnn 机电设备 视听 信息 融合 方法 | ||
1.一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法,其特征在于:(1)提取MFCC特征,确定听觉信息的F比;(2)确定MFCC参数加权后的表达式;(3)MFCC参数进行主成分分析;(4)提取听觉信息的GBFB特征;(5)将卷积后结果分解为子块矩阵;(6)图像的可听化处理;(7)搭建DNN架构;具体包括以下七个步骤:
步骤一:提取MFCC特征,确定分布式光纤信号听觉信息的F比F(k):
式中,Fbetween(k)为第k维分量均值的方差,Fwithin(k)为第k维分量的方差之和;
步骤二:确定MFCC参数加权后的表达式C(n):
首先,根据F比图特点,假设加权系数表达式为:
ci=a+bsin(π·i/p)
式中,p为滤波器阶数,i=0,1,L,p-1,a为加权系数的静态分量,b为加权系数的线性分量;根据经验细化a,b值,确定MFCC参数加权后的表达式C(n):
式中,M代表滤波器阶数,m为对应的分布式光纤听觉信息的帧数,s(m)为对应于m帧的分布式光纤听觉信息;
步骤三:MFCC参数进行主成分分析:
对加权处理过的特征分量求差分,△WMFCC为特征分量一阶差分,△2WMFCC为特征分量二阶差分;将三者组成一组特定维数的MFCC参数;
对得到的参数进行PCA主成分分析,确定相关矩阵T:
式中,N是MFCC参数的维数,ci是加权后的MFCC参数,C是M×N的矩阵,是矩阵T的特征值及相应的特征向量;在一定的阈值要求下,取大于阈值特征值所对应的特征向量,构成变换矩阵W;利用将C映射到特征空间X中,其中,X=[x1,x2,L,xp],为M×p的矩阵,选取新向量X中的p维特征向量;
步骤四:提取听觉信息的GBFB特征:
确定分布式光纤信号听觉信息声谱与Gabor滤波器进行卷积处理后的结果Gu,v(n,k);利用mel滤波器将得到的结果进行滤波处理,得到
式中,n表示声谱的坐标点,u和v为Gabor滤波器的尺度与方向,MELl(n)表示mel滤波器组,Lt和Ht为mel滤波器最低和最高频率;
步骤五:将分解为p×q个j×k大小的子块矩阵:
对上式中的每个子矩阵取最大值,得到Uu,v:
Uu,v=[max((Gjk)ij)]p×q
将Uu,v向量化得到UQ,利用PCA将UQ映射到低维空间得到P(UQ):
式中,j为小块矩阵的行数,q为子矩阵一共的列数,μ为UQ的均值,维数为M×1,M=p×q,为低维的映射矩阵,维数为M×d,d为主成分个数,因此,最终得到d×1维的GBFB特征;
步骤六:图像的可听化处理:
选择图像的像素值和像素值所在的位置作为图像映射的特征,选择声音的振幅和频率作为声音的维度,则图像与声音的映射关系为:
式中,sij为图像第i行第j列的听觉信息模式,n为图像总像素列数,gi,j为图像的像素值,fj为第j列的像素点的频率,t决定了听觉信息的持续时间,其中,
步骤七:搭建DNN架构:
在训练过程中,损失函数使用均方误差MSE的值:
式中,为参数估计值,yi为参数真值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010974747.2/1.html,转载请声明来源钻瓜专利网。