[发明专利]基于逐层标签融合深度网络的图像标注方法在审
申请号: | 201410290316.9 | 申请日: | 2014-06-25 |
公开(公告)号: | CN104021224A | 公开(公告)日: | 2014-09-03 |
发明(设计)人: | 徐常胜;袁召全;桑基韬 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/66 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 融合 深度 网络 图像 标注 方法 | ||
技术领域
本发明涉及社交网络图像标注技术领域,尤其涉及一种基于逐层标签融合深度网络的图像标注方法。
背景技术
近年来,随着社交媒体的不断发展,社交平台上的图像数量呈爆炸式增长,如何对海量的社交图像进行标注成为网络多媒体领域重要的研究内容。
目前主流的图像标注方法主要集中在基于视觉信息的方法,该类方法首先进行底层特征提取,然后利用机器学习模型来对基于特征表示的图像进行分类。该类方法在一定程度上取得了较好的效果,然而由于仅利用视觉信息而忽视了其上下文的文本信息,其效果仍不够理想。
图像标注的核心在于利用图像相关的信息(包括视觉,上下文文本标签信息等)进行图像内容的理解,融合图像的标签信息和视觉信息,得到更加有表达能力的图像特征,对图像标注,特别是社交图像有重要的促进作用。然而,视觉特征和文本标签信息的异构性,给两类信息的融合带来了挑战,本发明提出的基于逐层标签融合深度网络的图像标注方法逐层地融合两类信息,解决了异构信息融合的难题,对于社交图像标注有着重要的作用。
发明内容
为了解决现有技术中存在的上述问题,本发明提出了一种基于逐层标签融合深度网络的图像标注方法。
本发明提出的一种基于逐层标签融合深度网络的图像标注方法包括以下步骤:
步骤1、对于训练集中的训练图像,提取其底层视觉特征X;
步骤2、对于所述训练图像的标签进行层级化,构建标签的层级结构;
步骤3、对于所述训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网络参数学习,得到所述训练图像的层级特征表示;
步骤4、对于测试集中的测试图像,提取其底层视觉特征,然后通过所述深度网络学习得到其层级特征表示,最后根据所述测试图像的层级特征表示预测其标注信息。
互联网图像标注在很多重要的相关领域已经有了广泛的应用。由于视觉顶层信息与高层语义之间的语义鸿沟的存在,基于视觉的图像标注是一个具有挑战性的难题。本发明提出的上述基于逐层标签融合深度网络的图像标注的方法能够自动对社交图像进行标注,另外本发明层级的标注方法比传统的标注方法更加精确。
附图说明
图1是根据本发明一实施例的基于逐层标签融合深度网络的图像标注方法的流程图;
图2是标签层级示例图;
图3是根据本发明一实施例的逐层特征融合深度网络的模型结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明所提出的方法所涉及的相关数据集包括:1)训练集,其中包括图像以及该图像所对应的社交标签;2)测试集,仅包括待标注的测试图像,而没有标签信息。
考虑到图像底层视觉信息和社交标签信息的异构性,本发明提出了一种基于逐层标签融合深度网络的图像标注方法。该方法的核心思想是在深度网络的框架下,逐层地进行标签信息和视觉信息的融合,从而学习图像的层级特征,为图像的标注提供特征表示。
图1示出了本发明提出的基于逐层标签融合深度网络的图像标注方法流程图,如图1所示,所述方法包括:
步骤1、对于训练集中的训练图像,提取其底层视觉特征;
步骤2、对于所述训练图像的标签进行层级化,构建标签的层级结构;
步骤3、对于所述训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网络参数学习,得到所述训练图像的层级特征表示;
步骤4、对于测试集中的测试图像,提取其底层视觉特征,然后通过所述深度网络学习得到其层级特征表示,最后根据所述测试图像的层级特征表示预测其标注信息。
下面详细介绍上述四个步骤的具体执行过程。
步骤1中,对象的底层视觉特征提取是得到对象的初始表示,对于图像信息,本发明优选采用尺度不变特征变换特征(SIFT)(比如1000维)作为图像的底层视觉特征,图像的底层视觉特征用X来表示。
步骤2中,利用一些可以用的工具,本发明优选WordNet,对于图像的社交标签构建层数为K的标签层级。比如:若某图像带有标签animal,plant,cat,dog,flower,则对应的标签层级如图2所示(此处层数为2)。
所述步骤3为对于训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网络参数学习,得到所述训练图像的层级特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410290316.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有降温功能的射砂嘴
- 下一篇:一种旅行硬箱