[发明专利]一种图像数据多标签分类方法有效
申请号: | 201910339785.8 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110210515B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 陈刚;谌晨;王皓波;胡天磊;陈珂;寿黎但 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 数据 标签 分类 方法 | ||
1.一种图像数据多标签分类方法,其特征在于:本方法的步骤如下:
步骤一是对输入图像进行分解:对输入图像处理获得图像特征集合,建立输入空间,再将图像特征集合中每个图像特征向量进行两两乘积并求和得到图像分解向量;
步骤二是利用神经网络提取特征的高次相关性:将步骤一得到的图像分解向量输入到包含多层全连接层的神经网络中得到输入图像的特征码;
步骤三是对标签数据进行分解:对已知的标签数据处理得到标签特征集合,建立标签空间,再将标签特征集合中每个标签特征向量进行两两乘积并求和得到标签分解向量;
步骤四是利用神经网络提取标签的高次相关性:将步骤三得到的标签分解向量输入到包含多层全连接层的神经网络中得到标签数据的特征码;
步骤五是解码:采用包含多层全连接层的神经网络将输入图像的特征码从输入空间解码到标签空间;
步骤六是检测:构建损失函数,初始化训练参数,采用随机梯度下降方法最小化最终损失函数,训练求解获得最优的训练参数;然后针对待测试的图像数据输入到训练后的模型中进行预测,输出标签结果,实现多标签分类;
方法具体如下:
步骤一:由输入图像获得图像向量x=[x1,x2,...,xp]T得到图像特征集合Vemb={v1x1,v2x2,...,vpxp},其中x1,x2,...,xp分别表示输入图像中各个像素点的灰度值,x∈Rp,Rp表示p维的实数空间作为输入空间,p表示输入图像中的像素点总数;vi表示第i个图像特征,vi∈Rt,Rt表示t维的实数空间;t表示特征维度;vixi表示第i个图像特征对于输入图像的图像特征向量;然后将图像特征集合Vemb中每个图像特征向量进行两两乘积并求和得到图像分解向量gx:
其中,表示向量的对应项相乘,j和k分别表示输入图像中的像素点的序数;
步骤二:将步骤一得到的图像分解向量gx输入到包含L+1层的第一神经网络中,第一神经网络是仅由L层全连接层结合一个输出层连接构成,其中除了最后一层全连接层以外的其他每个全连接层之后均设置有一个激活函数:
sx1=σx1(Wx1gx+bx1)
sx2=σx2(Wx2sx1+bx2)
……
sxL=σxL(WxLsxL-1+bxL)
cx=WxosxL+bxo
其中,sxi,Wxi,bxi,σxi分别是第一神经网络中第i个全连接层的输出向量、权重矩阵、偏差向量和Relu激活函数;cx表示输入图像x的特征码,cx∈Rt,Rt为维度t的实数空间作为隐空间;Wxo表示第一神经网络中输出层的权重矩阵,bxo表示第一神经网络中输出层的偏差向量;sxL-1是第一神经网络中第L-1个全连接层的输出向量;sxL是第一神经网络中第L个全连接层的输出向量;
步骤三:由已知的标签数据获得标签向量y=[y1,y2,...,yq]T得到标签特征集合Uemb={u1y1,u2y2,...,uqyq},其中y1,y2,...,yq分别表示标签数据中每个图像标签的分类值,y∈Rq,Rq表示q维的实数空间作为标签空间,q表示标签数据中的标签分类总数;ui表示第i个标签特征,ui∈Rt,Rt表示t维的实数空间;t表示特征维度;uiyi表示第i个标签特征对于标签数据的标签特征向量;然后将标签特征集合Uemb中每个标签特征向量进行两两乘积并求和得到标签分解向量gy:
其中,表示向量的对应项相乘,e和r分别表示标签数据中的标签分类的序数;
步骤四:将步骤三得到的标签分解向量gy输入到包含L+1层的第二神经网络中,第二神经网络是仅由L层全连接层结合一个输出层连接构成,其中除了最后一层全连接层以外的其他每个全连接层之后均设置有一个激活函数:
sy1=σy1(Wy1gy+by1)
sy2=σy2(Wy2sy1+by2)
……
syL=σyL(WyLsyL-1+byL)
cy=WyosyL+byo
其中,syi,Wyi,byi,σyi分别是第二神经网络中第i个全连接层的输出向量、权重矩阵、偏差向量和Relu激活函数;cy表示标签数据y的特征码,cy∈Rt,Rt为维度k的实数空间作为隐空间;Wyo表示第二神经网络中输出层的权重矩阵,byo表示第二神经网络中输出层的偏差向量;
步骤五:用包含Ld+1层的第三神经网络对输入图像x的特征码cx处理,解码到标签空间,第三神经网络是仅由Ld层全连接层结合一个输出层连接构成,其中除了最后一层全连接层以外的其他每个全连接层之后均设置有一个激活函数:
h1=η1(Wd1gx+bd1)
h2=η2(Wd2h1+bd2)
……
其中,hi,Wdi,bdi,ηi分别是第三神经网络中的第i个全连接层的输出向量、权重矩阵、偏差向量和Relu激活函数,Ld表示神经网络的层数;表示预测的标签输出向量;Wdo表示第三神经网络中输出层的权重矩阵,bdo表示第三神经网络中输出层的偏差向量;
步骤六:建立以下损失函数Ψ:
其中,θ表示训练参数,由上述所有图像特征和所有标签特征以及三个神经网络中的权重矩阵、偏差向量构成了训练参数,Θ是所有训练参数的集合,||·||表示向量的二阶范数或矩阵的Frobenius范数,λ是可调权重参数;ΨD表示图像向量x和标签向量y的特征码之间的平方损失函数,ΨE表示标签输出向量和标签向量y之间的平方损失函数,N是训练数据的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910339785.8/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置