[发明专利]一种基于龙芯派的多类别深度学习图像识别方法及其应用有效
申请号: | 201811374115.1 | 申请日: | 2018-11-19 |
公开(公告)号: | CN109543744B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 赵静;王弦;谢非;牛友臣 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/82;G06V10/77;G06N3/04;G06N3/08 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳;杜春秋 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 龙芯派 类别 深度 学习 图像 识别 方法 及其 应用 | ||
1.一种基于龙芯派的多类别深度学习图像识别方法,其特征在于,包括以下步骤:
步骤S1、获取待识别类别的图像数据集;
步骤S2、在计算机平台下搭建AlexNet网络模型,并利用图像数据集训练AlexNet网络模型,以得到训练参数;在Caffe深度学习框架下,利用图像数据集训练网络模型的方法如下:S201、图像预处理,通过大小归一化处理,将步骤S2所获取的图像数据集中所有图像都归一化为256*256的大小,并且对每张图像进行减均值处理;减均值处理的具体方法为将每张图像的每个像素减去图像数据集所有图像的像素平均值;在步骤S203中,训练参数设定为:迭代5000次,batch_size=256,基础学习率设为0.001,学习参数weight_decay=0.0005,momentum=0.9,采用step算法,每1000次迭代衰减一次,Momentum值为0.9,每1000次迭代输出一个snapshot;
S202、在caffe深度学习框架下建立初始AlexNet网络模型,设定网络模型为8层,前5层为卷积层,分别记为Conv1、Conv2、Conv3、Conv4、Conv5,后三层为全连接层,分别记为Conv6、Conv7、Conv8,在卷积层Conv1与Conv2、卷积层Conv2与Conv3、卷积层Conv5与全连接层Conv6之间设立池化层,AlexNet网络模型采用的激活函数均为ReLU函数,其表达式为:f(x)=max(0,x)
其中,x在卷积层中代表RGB某个通道的某个像素,在全连接层中代表某个神经元的输出值;
S203、训练AlexNet网络模型,将预处理过的图像数据输入到所建立的AlexNet网络模型中进行训练,在训练过程中,该网络模型的结构参数不断优化,最终训练参数被保存为二进制文件;
步骤S3、在龙芯派平台下实现多类别深度学习图像识别程序;
步骤S4、设计图形用户界面,实现由用户选取待识别图像,自动显示目标图像所属类别。
2.根据权利要求1所述一种基于龙芯派的多类别深度学习图像识别方法,其特征在于,在步骤S1中,图像数据集包括训练集和测试集;对大规模的训练集进行二次整理,筛选出200类对象,每类对象100张图片。
3.根据权利要求2所述一种基于龙芯派的多类别深度学习图像识别方法,其特征在于,在步骤S3中,所采用的龙芯派平台以龙芯2K1000芯片为处理器,该处理器为双核64位处理器,主频为1GHz,峰值运算速度为8Gflops,平台搭载的操作系统为基于Fedora内核的loongnix系统。
4.根据权利要求3所述一种基于龙芯派的多类别深度学习图像识别方法,其特征在于,步骤S3中,龙芯派下的图像识别程序包括以下步骤:S301、搭建AlexNet网络模型,从prototxt类型文件读取网络基本结构,从caffemodel类型文件读取训练参数,得到AlexNet网络模型,AlexNet网络模型具有5层用来对图像进行特征提取的卷积层以及3层对提取到的特征进行融合的全连接层;
S302、主函数从指定系统文件夹位置读取图像文件,图像文件为任意图像格式,通过OpenCv环境下的imread函数,将输入图像转换成RGB数据的形式;
S303、利用AlexNet网络模型对图像数据进行处理,AlexNet网络模型中最后一层网络通过softmax函数的输出为200维的向量,向量的各个分量值均在0-1之间;
S304、主函数读取AlexNet网络模型的输出和标签文件,匹配输出向量值最大的分量所对应的标签,并输出标签文件信息;
S305、利用Qt环境的widget方法组合各个控件,形成图形用户界面,实现选取文件夹、选取图片到识别结果显示的可视化过程。
5.根据权利要求4所述一种基于龙芯派的多类别深度学习图像识别方法,其特征在于,在步骤S301中,所建立的AlexNet网络模型中卷积层之间设立池化层,且该池化层采用3*3池化窗口的最大池化方法,池化层的步长为2;在步骤S303中,最后一层全连接层通过softmax分类器处理后输出,输出大小为1*1*100,代表100类可识别对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811374115.1/1.html,转载请声明来源钻瓜专利网。