[发明专利]一种基于多模态融合深度学习的物体材质分类方法有效
申请号: | 201710599106.1 | 申请日: | 2017-07-21 |
公开(公告)号: | CN107463952B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 刘华平;方静;刘晓楠;孙富春 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 融合 深度 学习 物体 材质 分类 方法 | ||
1.一种基于多模态融合深度学习的物体材质分类方法,其特征在于该方法包括以下步骤:
(1)设训练样本个数为N1,训练样本材质种类为M1个,记每类材质训练样本的标签为其中1≤M1≤N1,分别采集所有N1个训练样本的视觉图像I1、触觉加速度A1和触觉声音S1,建立一个包括I1、A1和S1的数据集D1,I1的图像大小为320×480;
设待分类物体个数为N2,待分类物体材质的种类为M2个,记每类待分类物体的标签为其中1≤M2≤M1,分别采集所有N2个待分类物体的视觉图像I2、触觉加速度A2和触觉声音S2,建立一个包括I2、A2和S2的数据集D2,I2的图像大小为320×480;
(2)对上述数据集D1和数据集D2视觉图像进行视觉图像预处理、触觉加速度信号进行触觉加速度预处理和触觉声音信号进行触觉声音预处理,分别得到视觉图像、触觉加速度频谱图和触觉声音频谱图,包括以下步骤:
(2-1)利用降采样方法,对图像大小为320×480的图像I1和图像I2进行降采样,得到I1和I2的大小为32×32×3的视觉图像;
(2-2)利用短时傅里叶变换方法,分别将触觉加速度A1和触觉加速度A2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉加速度A1和触觉加速度A2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到A1和A2的大小为32×32×3的触觉加速度频谱图像;
(2-3)利用短时傅里叶变换方法,分别将触觉声音S1和触觉声音S2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉声音S1和触觉声音S2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到S1和S2的大小为32×32×3的声音频谱图像;
(3)通过多尺度特征映射,获得视觉模态、触觉加速度模态和触觉声音模态的卷积特征,包括以下步骤:
(3-1)将上述步骤(2)得到的I1和I2的大小为32×32×3的视觉图像、A1和A2的大小为32×32×3的触觉加速度频谱图像和S1和S2的大小为32×32×3的声音频谱图像输入到神经网络第一层,即输入层,输入图像的大小为d×d×3,该神经网络中的局部感受野具有Ψ个尺度通道,Ψ个尺度通道的大小分别为r1,r2,…,rΨ,每个尺度通道产生K个不同的输入权重,从而随机生成Ψ×K个特征图,将神经网络随机产生的第Φ个尺度通道的视觉图像、触觉加速度频谱图和声音频谱图的初始权重记为和和分别由和逐列组成,其中,上角标I表示训练样本和待分类物体的视觉模态,上角标A表示训练样本和待分类物体的触觉加速度模态,S表示训练样本和待分类物体的触觉声音模态,表示初始权重,表示产生第ζ个特征图的初始权重,1≤Φ≤Ψ,1≤ζ≤K,第Φ个尺度局部感受野的大小为rΦ×rΦ,
进而得到第Φ个尺度通道的所有K个特征图的大小为(d-rΦ+1)×(d-rΦ+1);
(3-2)使用奇异值分解方法,对上述第Φ个尺度通道的初始权重矩阵进行正交化处理,得到正交矩阵和和中的每一列和分别为的正交基,第Φ个尺度通道的第ζ个特征图的输入权重和分别为由和形成的方阵;
利用下式,分别计算视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道的第ζ特征图中的节点(i,j)的卷积特征:
和分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ特征图的节点(i,j)的卷积特征,x是与节点(i,j)对应的矩阵;
(4)对上述视觉模态、触觉加速度模态和触觉声音模态的卷积特征进行多尺度平方根池化,池化尺度有Ψ个尺度,Ψ个尺度的大小分别为e1,e2,…,eΨ,第Φ个尺度下池化大小eΦ表示池化中心和边缘之间的距离,池化图和特征图大小相同,为(d-rΦ+1)×(d-rΦ+1),根据上述步骤(3)得到的卷积特征,利用下式计算池化特征:
若节点i不在(0, (d-rΦ+1))内,节点j不在(0, (d-rΦ+1))内,则和均为零,
Φ=1,2,3...,Ψ,
ζ=1,2,3...,K,
其中,和分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ个池化图的节点(p,q)的池化特征;
(5)根据上述池化特征,得到三个模态的全连接特征向量,包括以下步骤:
(5-1)将步骤(4)的池化特征中的第ω个训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的池化图的所有池化特征,分别连接成一个行向量和其中1≤ω≤N1;
(5-2)遍历N1个训练样本,重复上述步骤(5-1),分别得到N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量组合,记为:
其中,表示视觉模态的组合特征向量矩阵,表示触觉加速度模态特征矩阵,表示触觉声音模态的特征向量矩阵;
(6)三个模态的全连接特征向量,进行多模态融合,得到多模态融合后的混合矩阵,包括以下步骤:
(6-1)将上述步骤(5)的N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量输入混合层进行组合处理,得到一个混合矩阵H=[HI,HA,HS];
(6-2)对步骤(6-1)的混合矩阵H中的每个样本的混合行向量进行调整,生成一个多模态融合后的二维混合矩阵,二维混合矩阵的大小为d'×d”,其中,d'是二维矩阵的长度,取值范围为
(7)将上述步骤(6)得到的多模态融合后的混合矩阵输入到神经网络的混合网络层,通过多尺度特征映射,获得多模态混合卷积特征,包括以下步骤:
(7-1)将上述步骤(6-2)得到的多模态融合后的混合矩阵输入到混合网络中,混合矩阵的大小为d'×d”,该混合网络有Ψ'个尺度通道,Ψ'个尺度通道的大小分别为r1,r2,…,rΨ',每个尺度通道产生K'个不同的输入权重,从而随机生成Ψ'×K'个混合特征图,将混合网络随机产生第Φ'个尺度通道混合初始权重记为由逐列组成,其中上角标hybrid表示三模态融合,表示混合网络的初始权重,表示产生第ζ'个混合特征图的初始权重,1≤Φ'≤Ψ',1≤ζ'≤K',第Φ'个尺度通道局部感受野的大小为rΦ'×rΦ',那么
进而得到第Φ'个尺度通道第ζ'个特征图的大小为(d'-rΦ'+1)×(d”-rΦ'+1);
(7-2)使用奇异值分解方法,对上述第Φ'个尺度通道初始权重矩阵进行正交化处理,得到正交矩阵的每一列是的正交基,第Φ'个尺度通道的第ζ'个特征图的输入权重是由形成的方阵;
利用下式,计算第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征:
是第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征,x'是与节点(i',j')对应的矩阵;
(8)对上述混合卷积特征,进行混合多尺度平方根池化,池化尺度有Ψ'个尺度,大小分别为e1,e2,…,eΨ',第Φ'个尺度下池化图和特征图大小相同,为(d'-rΦ'+1)×(d”-rΦ'+1),根据上述步骤(7)得到的混合卷积特征,利用下式计算混合池化特征:
若节点i'不在(0, (d’-rΦ’+1))内,节点j'不在(0, (d’-rΦ’+1))内,则为零,
Φ'=1,2,3...,Ψ',
ζ'=1,2,3...,K';
其中,表示第Φ'个尺度通道的第ζ'个池化图的组合节点(p',q')的混合池化特征;
(9)根据上述混合池化特征,采用步骤(5)的方法,将不同尺度的混合池化特征向量进行全连接,得到混合网络的组合特征矩阵其中K'表示每个尺度通道产生不同特征图的个数;
(10)根据上述步骤(9)得到的混合网络的组合特征矩阵Hhybric,利用下式,根据训练样本的个数N1,计算神经网络的训练样本输出权重β:
若则
若则
其中,T是训练样本的期望值,C为正则化系数,取值为任意值,上标T表示矩阵转置;
(11)利用上述步骤(3)中三个模态初始权重正交化后的正交矩阵和对经过预处理的待分类数据集D2,利用上述步骤(3)-步骤(9)的方法,得到待分类样本的混合网络的组合特征矩阵Htest;
(12)根据上述步骤(10)的训练样本输出权重β和上述步骤(11)的待分类样本的混合网络的组合特征矩阵Htest,利用下式计算出N2个待分类样本的预测标签με,实现基于多模态融合深度学习的物体材质分类,
με=Htestβ 1≤ε≤M2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710599106.1/1.html,转载请声明来源钻瓜专利网。