[发明专利]可同时挖掘视觉和语义相似性的图像标注方法有效
申请号: | 201610892662.3 | 申请日: | 2016-10-12 |
公开(公告)号: | CN106650775B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 唐金辉;李泽超;籍茜 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱宝庆 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同时 挖掘 视觉 语义 相似性 图像 标注 方法 | ||
技术领域
本发明涉及一种图像标注技术,特别是一种可同时挖掘视觉和语义相似性的基于KNN的图像标注方法。
背景技术
随着网络图片呈现出爆炸式的增长,媒体数据库的规模也不断扩大。现如今,许多搜索引擎利用关键词检索图像,因此,如何为图像分配相关关键词成为了一个重要研究课题。然而,图像标注是一项具有挑战的任务。首先,在底层视觉特征和高层语义之间存在的语义鸿沟问题使得该任务变得十分困难。其次,早先所使用的人工标注是费时费力的,在大数据时代,利用人工标注显然是不现实的。
近年来,为解决上述问题,研究者提出了各种各样的方法,如稀疏编码法、图学习法、决策树法等。然而,这些方法都不能解决由于人工标注的训练数据不足,导致不能完全利用图像的视觉和语义相似性的问题。而本发明所提出的方法可以很好地解决上述问题。
发明内容
本发明的目的在于提供一种可同时挖掘视觉和语义相似性的基于KNN的图像标注方法,该方法包括以下步骤:
从图像集中获取训练图像子集;
对测试图像在每个训练图像子集中获取K1各视觉近邻的图像并组成集合T;
对测试图像的每个视觉近邻图像在其相应的训练图像子集中,获取除集合T外与其既视觉相似又语义相似的K2个近邻图像并组合成集合P;
利用集合T和P,为每个标签在标注测试图像过程中分配其重要性。
本发明与现有技术相比,具有以下优点:(1)本发明可以同时挖掘出图像的视觉和语义相似性,从而可以获取图像更全面的信息;(2)本发明可以使得网上下载的图像标签具有完整性且噪声小。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1是本发明方法流程图。
图2是本发明一种典型的图像集合的示意图。
具体实施方式
一种可同时挖掘视觉和语义相似性的基于KNN的图像标注方法,包括以下步骤:
步骤1,输入测试图像(如图2所示);
步骤2,从测试图像的图像集中获取训练图像子集;
步骤3,对测试图像在每个训练图像子集中获取K1各视觉近邻的图像并组成集合T;
步骤4,对测试图像的每个视觉近邻图像在其相应的训练图像子集中,获取除集合T外与其既视觉相似又语义相似的K2个近邻图像并组合成集合P;
步骤5,利用集合T和P,为每个标签在标注测试图像过程中分配其重要性。
步骤2的具体过程为:
步骤S101,建立图像集X={x1,x2,...,xn}∈Rn×d,其中xi∈Rd(1≤i≤n)为第i张图像,d为图像维数;
步骤S102,建立一个包括c个标签的词典L={l1,l2,...,lc}∈{0,1}n×c;
步骤S103,建立训练集T={(x1,y1),(x2,y2),...,(xn,yn)}用于表示成对的图像xi和该图像相应标签集yi,其中yi∈{0,1}c;
步骤S104,若图像xi被第k个标签标记,则yi(k)=1,否则yi(k)=0;
步骤S105,建立包含所有被同一标签li'标记的图像集合为训练图像子集。
步骤3的具体过程为:
步骤S201,对测试图像I,获取其与每个训练图像子集中的每一幅图像间的视觉距离;
步骤S202,选取每一训练子集中与测试图像I最近邻的K1个图像形成集合TI,i”,i”∈[1,...,c];
步骤S203,将测试图像I的所有最近邻图像合并为集合T,T={TI,1∪TI,2∪...∪TI,c}=∪i”∈[1,...,c]TI,i″。
步骤4的具体过程为:
获取集合P的具体过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610892662.3/2.html,转载请声明来源钻瓜专利网。