[发明专利]一种图像数据多标签分类方法有效

专利信息
申请号: 201910339785.8 申请日: 2019-04-25
公开(公告)号: CN110210515B 公开(公告)日: 2021-04-20
发明(设计)人: 陈刚;谌晨;王皓波;胡天磊;陈珂;寿黎但 申请(专利权)人: 浙江大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 林超
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图像 数据 标签 分类 方法
【权利要求书】:

1.一种图像数据多标签分类方法,其特征在于:本方法的步骤如下:

步骤一是对输入图像进行分解:对输入图像处理获得图像特征集合,建立输入空间,再将图像特征集合中每个图像特征向量进行两两乘积并求和得到图像分解向量;

步骤二是利用神经网络提取特征的高次相关性:将步骤一得到的图像分解向量输入到包含多层全连接层的神经网络中得到输入图像的特征码;

步骤三是对标签数据进行分解:对已知的标签数据处理得到标签特征集合,建立标签空间,再将标签特征集合中每个标签特征向量进行两两乘积并求和得到标签分解向量;

步骤四是利用神经网络提取标签的高次相关性:将步骤三得到的标签分解向量输入到包含多层全连接层的神经网络中得到标签数据的特征码;

步骤五是解码:采用包含多层全连接层的神经网络将输入图像的特征码从输入空间解码到标签空间;

步骤六是检测:构建损失函数,初始化训练参数,采用随机梯度下降方法最小化最终损失函数,训练求解获得最优的训练参数;然后针对待测试的图像数据输入到训练后的模型中进行预测,输出标签结果,实现多标签分类;

方法具体如下:

步骤一:由输入图像获得图像向量x=[x1,x2,...,xp]T得到图像特征集合Vemb={v1x1,v2x2,...,vpxp},其中x1,x2,...,xp分别表示输入图像中各个像素点的灰度值,x∈Rp,Rp表示p维的实数空间作为输入空间,p表示输入图像中的像素点总数;vi表示第i个图像特征,vi∈Rt,Rt表示t维的实数空间;t表示特征维度;vixi表示第i个图像特征对于输入图像的图像特征向量;然后将图像特征集合Vemb中每个图像特征向量进行两两乘积并求和得到图像分解向量gx

其中,表示向量的对应项相乘,j和k分别表示输入图像中的像素点的序数;

步骤二:将步骤一得到的图像分解向量gx输入到包含L+1层的第一神经网络中,第一神经网络是仅由L层全连接层结合一个输出层连接构成,其中除了最后一层全连接层以外的其他每个全连接层之后均设置有一个激活函数:

sx1=σx1(Wx1gx+bx1)

sx2=σx2(Wx2sx1+bx2)

……

sxL=σxL(WxLsxL-1+bxL)

cx=WxosxL+bxo

其中,sxi,Wxi,bxi,σxi分别是第一神经网络中第i个全连接层的输出向量、权重矩阵、偏差向量和Relu激活函数;cx表示输入图像x的特征码,cx∈Rt,Rt为维度t的实数空间作为隐空间;Wxo表示第一神经网络中输出层的权重矩阵,bxo表示第一神经网络中输出层的偏差向量;sxL-1是第一神经网络中第L-1个全连接层的输出向量;sxL是第一神经网络中第L个全连接层的输出向量;

步骤三:由已知的标签数据获得标签向量y=[y1,y2,...,yq]T得到标签特征集合Uemb={u1y1,u2y2,...,uqyq},其中y1,y2,...,yq分别表示标签数据中每个图像标签的分类值,y∈Rq,Rq表示q维的实数空间作为标签空间,q表示标签数据中的标签分类总数;ui表示第i个标签特征,ui∈Rt,Rt表示t维的实数空间;t表示特征维度;uiyi表示第i个标签特征对于标签数据的标签特征向量;然后将标签特征集合Uemb中每个标签特征向量进行两两乘积并求和得到标签分解向量gy

其中,表示向量的对应项相乘,e和r分别表示标签数据中的标签分类的序数;

步骤四:将步骤三得到的标签分解向量gy输入到包含L+1层的第二神经网络中,第二神经网络是仅由L层全连接层结合一个输出层连接构成,其中除了最后一层全连接层以外的其他每个全连接层之后均设置有一个激活函数:

sy1=σy1(Wy1gy+by1)

sy2=σy2(Wy2sy1+by2)

……

syL=σyL(WyLsyL-1+byL)

cy=WyosyL+byo

其中,syi,Wyi,byi,σyi分别是第二神经网络中第i个全连接层的输出向量、权重矩阵、偏差向量和Relu激活函数;cy表示标签数据y的特征码,cy∈Rt,Rt为维度k的实数空间作为隐空间;Wyo表示第二神经网络中输出层的权重矩阵,byo表示第二神经网络中输出层的偏差向量;

步骤五:用包含Ld+1层的第三神经网络对输入图像x的特征码cx处理,解码到标签空间,第三神经网络是仅由Ld层全连接层结合一个输出层连接构成,其中除了最后一层全连接层以外的其他每个全连接层之后均设置有一个激活函数:

h1=η1(Wd1gx+bd1)

h2=η2(Wd2h1+bd2)

……

其中,hi,Wdi,bdi,ηi分别是第三神经网络中的第i个全连接层的输出向量、权重矩阵、偏差向量和Relu激活函数,Ld表示神经网络的层数;表示预测的标签输出向量;Wdo表示第三神经网络中输出层的权重矩阵,bdo表示第三神经网络中输出层的偏差向量;

步骤六:建立以下损失函数Ψ:

其中,θ表示训练参数,由上述所有图像特征和所有标签特征以及三个神经网络中的权重矩阵、偏差向量构成了训练参数,Θ是所有训练参数的集合,||·||表示向量的二阶范数或矩阵的Frobenius范数,λ是可调权重参数;ΨD表示图像向量x和标签向量y的特征码之间的平方损失函数,ΨE表示标签输出向量和标签向量y之间的平方损失函数,N是训练数据的数量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910339785.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top