[发明专利]一种基于随机梯度下降和多示例多标签学习的图像标引方法在审
申请号: | 202010704143.6 | 申请日: | 2020-07-21 |
公开(公告)号: | CN111950602A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 包翔;汪满容 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/34;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 梯度 下降 示例 标签 学习 图像 标引 方法 | ||
本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法,属于图像标引技术领域。本发明进行图像标引时,用于确定测试集图像所属类别的预测的输出矩阵,由迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵计算得到,迭代参数Wt利用加入动量的梯度下降优化算法对神经网络中隐层与输出层之间的参数进行迭代分析得到,参数迭代分析是在最小化误差矩阵E的过程中进行的。本发明避免了直接运用奇异值分解法,造成误差不断的增加,实现未标引图像快速精确的自动标引。
技术领域
本发明涉及图像标引技术领域,特别涉及一种基于随机梯度下降和多示例多标签学习的图像标引方法,适用于图书馆信息标引工作。
背景技术
随着信息技术的发展和互联网服务的进步,现实生活中每天都产生海量的图像,这些图像大部分不单反映一个内容,可能涉及多个主题,包含很多的语义信息,例如,一幅关于海滩的图像,可能包括行人、大海、白云、树木、海滩等不同的主题。
而产生的海量图像,不具有能够充分描述图像内容的分类标签,如果单纯以人工图像标引,则费时费力。多示例多标签学习图像标引的目的是通过具有多个标签的图像学习,给无标签图像赋予精确的多个分类标签,实现快速精确地图像自动标引。
多示例多标签径向基(MIMLRBF)神经网络算法(Zhang M L,Wang Z J.MIMLRBF:RBF neural networks for multi-instance multi-label learning[J].Neurocomputing,2009,72(16-18):3951-3956.),是对传统的径向基(RBF)神经网络进行扩展,解决多示例多标签(MIML)问题,该方法的第一层输入是一个包含多个示例的样本;该神经网络的训练过程主要分为两部分,首先对于每个类别所包含的样本通过K-MEDOIDS算法进行聚类,通过聚类产生的中心构成了神经网络的第二层,然后神经网络中第二层与第三层之间的参数W通过最小化误差函数平方和的方式求解。在对未知样本进行标引时,通过计算参数W与未知样本和MIMLRBF网络隐含层节点之间距离的乘积,即可得到未知样本的标签,实现自动标引。但是MIMLRBF神经网络算法在求解参数W的过程中直接运用奇异值(SVD)分解的方法,造成误差不断的增加,影响神经网络的性能。
发明内容
针对现有技术中存在不足,本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法,解决现有技术中MIMLRBF神经网络算法在求解参数W的过程中存在的问题。
本发明是通过以下技术手段实现上述技术目的的。
一种基于随机梯度下降和多示例多标签学习的图像标引方法,包括以下步骤:
步骤(1),获取若干图像,已标引的图像作为训练集,未标引的图像作为测试集;
步骤(2),对所有图像进行分割,提取分割区域的图像特征,将图像转化为多示例包;
步骤(3),由训练集构建MIMLRBF神经网络,所述神经网络的隐层由多示例包构成,利用误差矩阵E表示所述神经网络中训练集期望的输出矩阵Yd与预测的输出矩阵Y的差值;
步骤(4),最小化误差矩阵E,运用加入动量的梯度下降优化算法对参数W进行迭代分析,获取迭代参数Wt;所述参数W是MIMLRBF神经网络中隐层与输出层之间的参数;
步骤(5),由所述迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引。
进一步的技术方案,所述对参数W进行迭代分析,具体为:
步骤(4.1),初始化误差矩阵E
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010704143.6/2.html,转载请声明来源钻瓜专利网。