[发明专利]利用超图融合多模态信息的图像检索方法在审

专利信息
申请号: 201711324900.1 申请日: 2017-12-13
公开(公告)号: CN108170729A 公开(公告)日: 2018-06-15
发明(设计)人: 赵伟;黄若谷;管子玉;王泉 申请(专利权)人: 西安电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 陕西电子工业专利中心 61205 代理人: 王品华;朱红星
地址: 710071 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种利用超图融合多模态信息的图像检索方法,主要解决现有方法存在语义鸿沟,图像检索准确率低的问题。其实现方案是:1.提取每幅待检索图像的视觉内容、用户标签和地理位置三种模态信息;2.构建所有待检索图像三种模态信息的距离矩阵;3.根据三种不同模态信息下图像之间的距离,构建描述这三种模态信息之间关联的超图模型;4.根据超图模型顶点和超边的关系构建超图关联矩阵;5.根据不同模态信息下图像之间的距离构建超边权重矩阵;6.根据给出的待检索图像,基于超图模型对所有图像排序并返回检索结果。本发明能切实减小语义鸿沟,将图模型更好的应用于多模态信息,提升图像检索的实用性、灵活性和准确率,可用于海量图像检索领域。 1
搜索关键词: 模态信息 图像检索 多模态信息 超图模型 检索图像 构建 语义鸿沟 准确率 图像 海量图像检索 关联矩阵 关系构建 检索结果 距离矩阵 权重矩阵 视觉内容 图像排序 用户标签 图模型 融合 减小 可用 地理位置 关联 返回 应用
【主权项】:
1.一种利用超图融合多模态信息的图像检索方法,其特征在于,包括:

(1)提取每一幅待检索图像的视觉内容、用户标签和地理位置三种模态信息;

(2)对于每一种模态信息,采用不同的距离测量方法计算图像之间的距离,并构建所有待检索图像的视觉内容距离矩阵D1、用户标签距离矩阵D2和地理位置距离矩阵D3

(3)根据三种不同模态信息下的图像之间的距离,构建描述这三种模态信息之间关联的超图模型;

(4)根据超图模型的顶点和超边的关系构建关联矩阵Hk,Hk表示第k种模态信息下的关联矩阵,k=1,2,3,将三个关联矩阵Hk按列连接构建超图关联矩阵H;

(5)在三种不同模态信息下,利用图像与图像之间的距离,计算得到不同模态的超边权重进而构建第一权重矩阵Wk,再将三种模态信息的Wk的对角线相接形成超边权重矩阵W;

(6)根据用户给出的待检索图像设置超图模型的查询顶点,在步骤(3)构建的超图模型上,基于查询顶点利用超图关联矩阵H和对角矩阵W计算图像的排名分数并按照从高到低的顺序排序,返回前N个图像,即为检索结果,N的范围是[1,+∞)。

2.如权利要求1所述的方法,其特征在于,步骤(1)中提取每一幅待检索图像的视觉内容、用户标签和地理位置三种模态信息,按如下步骤进行:

1a)提取待检索图像的视觉内容,即图像的HSV颜色直方图、Gist特征、Sift特征,得到视觉内容模态信息;

1b)将数据集中所有标签转换成小写,得到唯一的词典,并利用直方图统计标签的出现概率,删除图像库中频率小于1的标签,得到标签集,即为用户标签模态信息;

1c)根据每幅图像的地理标注信息得到图像的拍摄地点坐标,该地点坐标的经度和纬度信息即为图像的地理位置模态信息。

3.如权利要求1所述方法,其特征在于,步骤(2)中构建所有待检索图像的视觉内容距离矩阵D1,是根据图像视觉内容模态信息,先计算两两图像间的曼哈顿距离,再用两两图像间的曼哈顿距离组成视觉内容距离矩阵D1,D1的行和列是所有待检索图像的总数n,D1中的第i个图像和第j个图像之间的曼哈顿距离为D1(i,j),i∈(0,n),j∈(0,n),i≠j。

4.如权利要求1所述方法,其特征在于,步骤(2)中构建所有待检索图像的用户标签距离矩阵D2,是先提取用户标签模态信息,再利用Skip‑gram模型将用户标签模态信息映射到向量空间,得到每个用户标签的向量;然后利用两两图像的用户标签向量计算两两图像的欧式距离;最后用两两图像的欧式距离组成用户标签距离矩阵D2,D2的行和列是所有待检索图像的总数n,D2中的第i个图像和第j个图像之间的欧氏距离为D2(i,j),i∈(0,n),j∈(0,n),i≠j。

5.如权利要求1所述方法,其特征在于,步骤(2)中构建所有待检索图像的地理位置距离矩阵D3,是先提取地理位置模态信息,再利用Vincenty公式计算两两图像的地理位置距离,最后用两两图像的地理位置距离组成地理位置距离矩阵D3,D3的行和列是所有待检索图像的总数n,D3中的第i个图像和第j个图像之间的地理位置距离为D3(i,j),i∈(0,n),j∈(0,n),i≠j。

6.如权利要求1所述的方法,其特征在于,步骤(3)中构建描述视觉内容、用户标签和地理位置这三种模态信息之间关联的超图模型,通过如下定义构建:

定义V为一个有限的顶点集合,每一个顶点代表每一幅待检索图像;

分别在三种模态信息下,根据每幅待检索图像与其他图像的距离得到该待检索图像的K近邻图像,用该K近邻图像及待检索图像构成超边e,并定义E为超边e的集合,定义w为超边e的权重,得到构建的超图模型为:G=(V,E,w)。

7.如权利要求1所述的方法,其特征在于,步骤(4)中构建关联矩阵Hk,按如下步骤进行:

4a)定义待检索图像的总数为n,计算第i个图像和第j个图像的关联值Ak(i,j):

其中,i∈(0,n),j∈(0,n),Ak(i,j)表示第k种模态信息下第i个图像和第j个图像的相似度,Dk(i,j)表示第k种模态信息下图像的距离矩阵Dk的元素,D~k表示Dk中所有元素的中值;

用关联值Ak(i,j)组成超图的顶点关联矩阵Ak

4b)根据顶点关联矩阵Ak获得第一关联矩阵Hk

4b1)先根据顶点关联矩阵Ak选取超图模型中每个顶点的K近邻,再连接顶点和它的K近邻顶点构成超边;

4b2)定义Hk(a,b)表示顶点与超边的关系,判断顶点b是否属于超边a:

若顶点b属于超边a,则设置Hk(a,b)=1,

若顶点b不属于超边a,则设置Hk(a,b)=0,

4b3)将a作为行,b作为列,用Hk(a,b)组成第一关联矩阵Hk,Hk的大小为|E|×|V|,|E|表示超边的总数,|V|表示超图顶点的总数,a∈(0,|E|),b∈(0,|V|)。

8.如权利要求1所述的方法,其特征在于,步骤(5)中构建第一权重矩阵Wk,通过如下方式构建:

定义待检索图像的总数为n,第k种模态信息下的超边权重wk(e)为:

其中,i∈(0,n),j∈(0,n),i≠j,Ak(i,j)表示第k种模态信息下第i个图像和第j个图像的关联值,v表示超图模型的顶点,e表示超图模型的超边;

用wk(e)组成大小为

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711324900.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top