[发明专利]一种基于多模态融合深度学习的物体材质分类方法有效

申请号：	201710599106.1	申请日：	2017-07-21
公开（公告）号：	CN107463952B	公开（公告）日：	2020-04-03
发明（设计）人：	刘华平;方静;刘晓楠;孙富春	申请（专利权）人：	清华大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	罗文群
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态融合深度学习物体材质分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多模态融合深度学习的物体材质分类方法，其特征在于该方法包括以下步骤：

(1)设训练样本个数为N₁，训练样本材质种类为M₁个，记每类材质训练样本的标签为其中1≤M₁≤N₁，分别采集所有N₁个训练样本的视觉图像I₁、触觉加速度A₁和触觉声音S₁，建立一个包括I₁、A₁和S₁的数据集D₁，I₁的图像大小为320×480；

设待分类物体个数为N₂，待分类物体材质的种类为M₂个，记每类待分类物体的标签为其中1≤M₂≤M₁，分别采集所有N₂个待分类物体的视觉图像I₂、触觉加速度A₂和触觉声音S₂，建立一个包括I₂、A₂和S₂的数据集D₂，I₂的图像大小为320×480；

(2)对上述数据集D₁和数据集D₂视觉图像进行视觉图像预处理、触觉加速度信号进行触觉加速度预处理和触觉声音信号进行触觉声音预处理，分别得到视觉图像、触觉加速度频谱图和触觉声音频谱图，包括以下步骤：

(2-1)利用降采样方法，对图像大小为320×480的图像I₁和图像I₂进行降采样，得到I₁和I₂的大小为32×32×3的视觉图像；

(2-2)利用短时傅里叶变换方法，分别将触觉加速度A₁和触觉加速度A₂转换到频域，短时傅里叶变换中的汉明窗的窗口长度为500，窗口偏移量为100，采样频率为10kHz，分别得到触觉加速度A₁和触觉加速度A₂的频谱图，从频谱图中选择前500个低频信道作为频谱图像，对该频谱图像进行降采样，得到A₁和A₂的大小为32×32×3的触觉加速度频谱图像；

(2-3)利用短时傅里叶变换方法，分别将触觉声音S₁和触觉声音S₂转换到频域，短时傅里叶变换中的汉明窗的窗口长度为500，窗口偏移量为100，采样频率为10kHz，分别得到触觉声音S₁和触觉声音S₂的频谱图，从频谱图中选择前500个低频信道作为频谱图像，对该频谱图像进行降采样，得到S₁和S₂的大小为32×32×3的声音频谱图像；

(3)通过多尺度特征映射，获得视觉模态、触觉加速度模态和触觉声音模态的卷积特征，包括以下步骤：

(3-1)将上述步骤(2)得到的I₁和I₂的大小为32×32×3的视觉图像、A₁和A₂的大小为32×32×3的触觉加速度频谱图像和S₁和S₂的大小为32×32×3的声音频谱图像输入到神经网络第一层，即输入层，输入图像的大小为d×d×3，该神经网络中的局部感受野具有Ψ个尺度通道，Ψ个尺度通道的大小分别为r₁,r₂,…,r_Ψ，每个尺度通道产生K个不同的输入权重，从而随机生成Ψ×K个特征图，将神经网络随机产生的第Φ个尺度通道的视觉图像、触觉加速度频谱图和声音频谱图的初始权重记为和和分别由和逐列组成，其中，上角标I表示训练样本和待分类物体的视觉模态，上角标A表示训练样本和待分类物体的触觉加速度模态，S表示训练样本和待分类物体的触觉声音模态，表示初始权重，表示产生第ζ个特征图的初始权重，1≤Φ≤Ψ，1≤ζ≤K，第Φ个尺度局部感受野的大小为r_Φ×r_Φ，

进而得到第Φ个尺度通道的所有K个特征图的大小为(d-r_Φ+1)×(d-r_Φ+1)；

(3-2)使用奇异值分解方法，对上述第Φ个尺度通道的初始权重矩阵进行正交化处理，得到正交矩阵和和中的每一列和分别为的正交基，第Φ个尺度通道的第ζ个特征图的输入权重和分别为由和形成的方阵；

利用下式，分别计算视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道的第ζ特征图中的节点(i,j)的卷积特征：

和分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ特征图的节点(i,j)的卷积特征，x是与节点(i,j)对应的矩阵；

(4)对上述视觉模态、触觉加速度模态和触觉声音模态的卷积特征进行多尺度平方根池化，池化尺度有Ψ个尺度，Ψ个尺度的大小分别为e₁,e₂,…,e_Ψ，第Φ个尺度下池化大小e_Φ表示池化中心和边缘之间的距离，池化图和特征图大小相同，为(d-r_Φ+1)×(d-r_Φ+1)，根据上述步骤(3)得到的卷积特征，利用下式计算池化特征：

若节点i不在(0, (d-r_Φ+1))内，节点j不在(0, (d-r_Φ+1))内，则和均为零，

Φ＝1,2,3...,Ψ，

ζ＝1,2,3...,K，

其中，和分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ个池化图的节点(p,q)的池化特征；

(5)根据上述池化特征，得到三个模态的全连接特征向量，包括以下步骤：

(5-1)将步骤(4)的池化特征中的第ω个训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的池化图的所有池化特征，分别连接成一个行向量和其中1≤ω≤N₁；

(5-2)遍历N₁个训练样本，重复上述步骤(5-1)，分别得到N₁训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量组合，记为：

其中，表示视觉模态的组合特征向量矩阵，表示触觉加速度模态特征矩阵，表示触觉声音模态的特征向量矩阵；

(6)三个模态的全连接特征向量，进行多模态融合，得到多模态融合后的混合矩阵，包括以下步骤：

(6-1)将上述步骤(5)的N₁训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量输入混合层进行组合处理，得到一个混合矩阵H＝[H^I,H^A,H^S]；

(6-2)对步骤(6-1)的混合矩阵H中的每个样本的混合行向量进行调整，生成一个多模态融合后的二维混合矩阵，二维混合矩阵的大小为d'×d”，其中，d'是二维矩阵的长度，取值范围为

(7)将上述步骤(6)得到的多模态融合后的混合矩阵输入到神经网络的混合网络层，通过多尺度特征映射，获得多模态混合卷积特征，包括以下步骤：

(7-1)将上述步骤(6-2)得到的多模态融合后的混合矩阵输入到混合网络中，混合矩阵的大小为d'×d”，该混合网络有Ψ'个尺度通道，Ψ'个尺度通道的大小分别为r₁,r₂,…,r_Ψ'，每个尺度通道产生K'个不同的输入权重，从而随机生成Ψ'×K'个混合特征图，将混合网络随机产生第Φ'个尺度通道混合初始权重记为由逐列组成，其中上角标hybrid表示三模态融合，表示混合网络的初始权重，表示产生第ζ'个混合特征图的初始权重，1≤Φ'≤Ψ',1≤ζ'≤K',第Φ'个尺度通道局部感受野的大小为r_Φ'×r_Φ'，那么

进而得到第Φ'个尺度通道第ζ'个特征图的大小为(d'-r_Φ'+1)×(d”-r_Φ'+1)；

(7-2)使用奇异值分解方法，对上述第Φ'个尺度通道初始权重矩阵进行正交化处理，得到正交矩阵的每一列是的正交基，第Φ'个尺度通道的第ζ'个特征图的输入权重是由形成的方阵；

利用下式，计算第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征：

是第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征，x'是与节点(i',j')对应的矩阵；

(8)对上述混合卷积特征，进行混合多尺度平方根池化，池化尺度有Ψ'个尺度，大小分别为e₁,e₂,…,e_Ψ'，第Φ'个尺度下池化图和特征图大小相同，为(d'-r_Φ'+1)×(d”-r_Φ'+1)，根据上述步骤(7)得到的混合卷积特征，利用下式计算混合池化特征：

若节点i'不在(0, (d’-r_Φ’+1))内，节点j'不在(0, (d’-r_Φ’+1))内，则为零，

Φ'＝1,2,3...,Ψ'，

ζ'＝1,2,3...,K'；

其中，表示第Φ'个尺度通道的第ζ'个池化图的组合节点(p',q')的混合池化特征；

(9)根据上述混合池化特征，采用步骤(5)的方法，将不同尺度的混合池化特征向量进行全连接，得到混合网络的组合特征矩阵其中K'表示每个尺度通道产生不同特征图的个数；

(10)根据上述步骤(9)得到的混合网络的组合特征矩阵H^hybric，利用下式，根据训练样本的个数N₁，计算神经网络的训练样本输出权重β：

若则

其中，T是训练样本的期望值，C为正则化系数，取值为任意值，上标T表示矩阵转置；

(11)利用上述步骤(3)中三个模态初始权重正交化后的正交矩阵和对经过预处理的待分类数据集D₂，利用上述步骤(3)-步骤(9)的方法，得到待分类样本的混合网络的组合特征矩阵H_test；

(12)根据上述步骤(10)的训练样本输出权重β和上述步骤(11)的待分类样本的混合网络的组合特征矩阵H_test，利用下式计算出N₂个待分类样本的预测标签μ_ε，实现基于多模态融合深度学习的物体材质分类，

μ_ε＝H_testβ 1≤ε≤M₂。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710599106.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种提高深度学习模型鲁棒性的方法及装置
下一篇：在标签含噪情况下基于质量嵌入的图像分类方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多模态融合深度学习的物体材质分类方法有效

专利文献下载