[发明专利]一种用基于张量的卷积网络提取高维特征的方法有效
申请号: | 201810049756.3 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108154194B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 施云惠;崔应炫;丁文鹏;尹宝才 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 卷积 网络 提取 特征 方法 | ||
本发明涉及一种用基于张量的卷积网络提取高维特征的方法,可应用于多维信号的分类识别场景中。模型核心部分是分离-融合模块,而分离-融合模块则由可分离卷积组件和特征融合组件构成,其中,可分离卷积组件主要由多个可分离卷积层组成,特征融合组件主要由一个多维卷积核组成。那么,整个基于张量的N维卷积模型由多个N维分离-融合模块、池化层和全连接层组成,最后一个最大池化层输出的一组N阶张量通过向量化的操作转成一个向量输入到全连接层中,最终输出一个识别分类的概率向量。本发明所提的网络模型不仅和现有的优秀模型在识别精度上性能相当,并且模型的参数量比它们少很多。
技术领域
本发明涉及一种用基于张量的卷积网络提取高维特征的方法,尤其涉及一种基于维度可分离和特征融合的卷积方法,可应用于多维信号的分类识别场景中。
背景技术
深度学习作为机器学习的一个分支,近些年来发展非常迅猛,尤其是在2012年,Krizhevsky等人提出的AlexNet在大型图像数据库ImageNet的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军,使得卷积神经网络重新成为了学术界的焦点,在此之后,不断有新的卷积神经网络模型被提出,比如Google的GoogLeNet、牛津大学的VGG(Visual Geometry Group)、微软亚洲研究院的ResNet等,这些网络刷新了AlexNet在ImageNet上创造的纪录。并且,卷积神经网络不断与一些传统算法相融合,加上迁移学习方法的引入,使得卷积神经网络的应用领域获得了快速的扩展。从最初较为简单的手写字符识别应用,逐渐扩展到一些更加复杂的领域,如:行人检测、行为识别、人体姿势识别等。这些新的卷积神经网络模型的层数在逐渐加深,网络模型对输入图像的high level特征提取的能力也不断提升,然而这带来了模型参数冗余繁多的问题,这又直接导致了空间复杂度过高、实时性不好的问题,有些学者针对这方面的问题做了一些有意义的研究工作,LeCun等人在2014年NIPS会议上发表了一篇文章,该文章对卷积神经网络的参数冗余性进行研究,提出了卷积神经网络存在一定的线性结构的观点,他们在训练出网络模型之后,又用奇异值分解、低秩逼近等方法通过将卷积核分解后重新训练,在损失少量精度的条件下,大为减少了模型网络的权值参数个数,从而较好地缩短了模型做预测时的实时响应时间,减少了网络模型的空间复杂度,使得将卷积神经网络模型应用于手机、网络等场合成为可能。之后,有学者用张量分解的方法,包括张量的CP分解、Tucker分解,对卷积核进行分解后重新训练,在减少网络模型的时间和空间复杂度方面也取得了较好的效果。
然而,以上的这些网络压缩模型都是服从模型监督的思路,也就是先训练出一个参数冗余的模型,在此基础上再用降维、分解等方法去减少模型参数,实际上就是用一个轻量级的模型去逼近一个冗余的模型,让后者来监督约束前者,需要训练两次,这样的方法应用在二维图像上是没有什么问题的。但随着视频编码、虚拟现实等技术的发展,对于三维、甚至更高维度的图像数据的使用,逐渐流行起来,而这些方法是不能直接应用在高维度的图像数据场景的,因为在高维图像数据上直接训练一个高维卷积神经网络会遇到以下几个问题,(1)要训练的参数量是相当庞大;(2)计算复杂度也非常高;(3)高维样本比较稀缺。这几个问题都加大了训练高维卷积神经网络的难度。因此,需要绕过模型监督的这种思路,从而设计一种针对高维数据,参数量少、计算复杂度低、并且只需训练一次就能得到最终模型的高维卷积网络结构,才是解决高维图像场景上的有效方法。
实际上,多维信号的每个维度对应的物理属性和维度方向分布特性不尽相同,数据内部存在复杂的相关性。而张量是表示高维多维数据的有效工具,理论上,将多维信号组织成张量形式,研究张量空间的建模,才可能揭示多维信号的每个维度对应的物理属性和维度方向分布特性及各个维度间复杂的相关性。本发明采用不同维度的分治和融合策略,提出一种基于张量的卷积神经网络模型,通过该神经网络模型,张量数据不同维度的非线性关系被充分挖掘出来,从而多维信号高维特征也能很好的被提取出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810049756.3/2.html,转载请声明来源钻瓜专利网。