[发明专利]一种基于八元数卷积神经网络的图像分类方法有效
申请号: | 201810748292.5 | 申请日: | 2018-07-10 |
公开(公告)号: | CN109086802B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 伍家松;徐玲;孔佑勇;杨冠羽;章品正;杨淳沨;姜龙玉;舒华忠 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 八元数 卷积 神经网络 图像 分类 方法 | ||
本发明公开了一种基于八元数卷积神经网络的图像分类方法,首先,输入训练图像,并且将训练图像表示成八元数矩阵的形式;其次,建立八元数卷积神经网络并且训练八元数卷积神经网络,学习得到每一层的网络参数,即训练模型;然后,用校验图像集进行校验,调整到最佳网络参数;最后,对测试图像进行测试,统计分类结果,计算识别率。本发明构造的八元数卷积神经网络,应用八元数矩阵表达方式保留图像内部的内在结构,使得在各种分类任务中,构造的网络与传统方法相比能够获得更高的图像的分类准确率。
技术领域
本发明涉及一种基于八元数卷积神经网络的图像分类方法,属于深度学习技术领域。
背景技术
深度学习(Deep Learning:DL)是加拿大多伦多大学Hinton教授等于2006年在国际权威期刊《Science》上提出的一种新的机器学习结构,其将无监督的逐层初始化(Layer-wise Pretraining)结构和深度神经网络(Deep Neural Networks:DNN)结构进行了有效的结合。深度学习技术吸引了学术界和工业界的广泛关注,在语音识别、图像识别、医学辅助诊断等领域取得了突破性进展。深度学习网络的构造、推广及其合理的解释是当前人工智能应用基础理论研究的重要研究内容之一。1998年,LeCun等人提出经典的LeNet-5二维实数卷积神经网络(convolutional neural networks:CNN)结构,其被用于MNIST手写数字识别。2012年,AlexNet赢得ImageNet大赛的冠军后,实数CNN逐渐成为被广泛采纳的图像分类结构。目前在MNIST、CIFAR-10、CIFAR-100、STL-10、SVHN、ImageNet等数据集中,分类正确率高的前几位几乎全被实数CNN结构所占据。
根据文献调研,复数域是实数域的有益推广,相对于实数域它具有如下两个方面的优势:
(1)从信号与图像处理的角度来说,复数与实数相比最重要的是引入了非常重要的相位信息。在语音信号处理中,相位信息影响着语音信号的可解释性。在图像处理中,图像相位信息提供了图像形状、边缘和方向的细节性描述,并且可用于恢复图像的幅度信息。
(2)从深度学习网络构造的角度来说,基于复数域的表达受到了越来越多的关注。研究人员在递归神经网络(Recurrent Neural Network:RNN)的构造之中发现:与实数RNN相比,复数RNN更容易优化,具有更好的泛化能力,具有更加快速的学习能力,具有更强的表达能力和对噪声更加鲁棒的记忆恢复(memory retrieval)机制。值得注意的是,最近研究人员也开始在复数域构造卷积神经网络,比如:Hansch和Hellwich提出了具有单个卷积层的复数CNN用于极化合成孔径雷达中的目标检测,实验结果显示复数值卷积神经网络的性能优于传统的复数值多层感知器。复旦大学徐丰教授研究组提出了专用于合成孔径雷达图像分类的复数CNN,在SAR基准数据集Flevoland和Oberpfaffenhofen上的测试结果表明复数CNN的分类正确率与实数CNN相当。Popa等人推导了用于训练多层复数CNN的梯度下降算法,使用MNIST和CIFAR-10数据集进行的图像分类实验表明复数CNN的性能要比具有相同数量参数的实数CNN性能更好。Trabelsi等人也提出了复数CNN模型,在相同参数情况下,复数CNN在CIFAR-10,SVHN和MusicNet数据集上比实数CNN具有更高的识别率。
四元数域是复数域和实数域的进一步推广,与后两者相比具有如下两个方面的优势:
(1)从信号与图像处理的角度来说,四元数域比较适合于彩色图像处理,四元数的相位信息可用于图像描述子的构造。传统CNN只适用于灰度图像或彩色图像分通道的特征提取,忽视了通道问的空间依赖性,破坏了真实环境的颜色特征,从而影响人体行为识别的准确率。孟勃等人提出一种基于四元数时空卷积神经网络(QST-CNN)的人体行为识别方法,将彩色图像的四元数矩阵形式作为网络的输入,并将CNN的空间卷积层扩展为四元数空间卷积层,该方法优于其他流行方法,在Weizmann和UCFsports数据集分别取得了85.34%和80.2%的识别率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810748292.5/2.html,转载请声明来源钻瓜专利网。