[发明专利]一种基于点击特征预测的图像分类方法有效
申请号: | 201810199059.6 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108647691B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 谭敏;俞俊;张宏源 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 裴金华 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 点击 特征 预测 图像 分类 方法 | ||
本发明公开了一种基于点击特征预测的图像分类方法。本发明步骤如下:1、借助有文本点击信息的图像数据集;利用分词技术及词频‑逆向文件频率算法构建每张图片的文本点击特征向量;2、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;3、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;4、通过反向传播算法对步骤2中的网络参数进行训练,直至整个网络模型收敛。本发明使得预测的点击特征更为准确。
技术领域
本发明涉及细粒度图像分类及点击数据预测领域,尤其涉及基于点击特征预测的图像分类方法。
背景技术
细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)是对视觉上非常相似的目标进行区分的过程,如鸟、狗、花的种类等,这些子类图像在视觉上差距甚小。因此传统的利用图像视觉特征(如轮廓,颜色等)的分类方法无法取得令人满意的效果,并存在较大的“语义鸿沟”。
为了解决语义鸿沟,研究者们尝试引入带有语义信息的图像特征。用户点击特征便是其中之一,它是通过搜索引擎(如Google、百度、Bing等)上获取的用户点击数据得到的。通过点击数据,图像可以被表征为查询文本点击次数向量,这种特征向量具有良好的表达语义能力。
尽管点击数据具有丰富的语义信息,但目前大多数图像分类数据集不包含点击信息,且收集图片的点击数据需要大量的人工标注且不现实。为了解决这个问题,我们提出了点击特征预测的方法,并利用融合的视觉与预测点击特征进行图像分类。
预测出的点击数据具有一定的表达语义信息的能力,并降低了数据收集的难度和人工成本。将其与视觉特征相融合进行图像分类,对促进细粒度图像分类的效果具有一定的可行性和实用性,是值得研究的。此外,点击数据作为目前科研的热门方向,将其应用在图像识别领域使得本发明具有一定的前沿性和创新性,直接从图像本身预测点击特征的方法也使得该发明有更强的现实性和普适性。
发明内容
本发明提供了一种基于点击特征预测的图像分类方法,该方法将点击预测和图像分类融合在一个统一的深度神经网络中、完成了一个端到端的深度学习模型,该模型能同时完成点击特征的预测及图像的分类任务,在点击特征预测方面,利用带位置约束的损失函数使得预测出的点击特征更加准确,在图像分类任务方面,利用预测出的点击特征改善分类效果,取得了比仅利用视觉特征分类的模型更好的效果
一种基于点击特征预测的图像分类方法,其步骤如下:
步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,所述的借助有文本点击信息的图像数据集,是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,具体如下:
步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数;
步骤(1)中的特征向量构建的过程如下:
将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征;其中具体公式如下:
其中,ni,j是单词i出现在文本j中出现次数,而∑ini,j是文本j中所有单词出现次数的总和。D是文本集中的文本j出现的总数,Di是包含单词i的文本数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810199059.6/2.html,转载请声明来源钻瓜专利网。