[发明专利]利用超图融合多模态信息的图像检索方法在审
申请号: | 201711324900.1 | 申请日: | 2017-12-13 |
公开(公告)号: | CN108170729A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 赵伟;黄若谷;管子玉;王泉 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种利用超图融合多模态信息的图像检索方法,主要解决现有方法存在语义鸿沟,图像检索准确率低的问题。其实现方案是:1.提取每幅待检索图像的视觉内容、用户标签和地理位置三种模态信息;2.构建所有待检索图像三种模态信息的距离矩阵;3.根据三种不同模态信息下图像之间的距离,构建描述这三种模态信息之间关联的超图模型;4.根据超图模型顶点和超边的关系构建超图关联矩阵;5.根据不同模态信息下图像之间的距离构建超边权重矩阵;6.根据给出的待检索图像,基于超图模型对所有图像排序并返回检索结果。本发明能切实减小语义鸿沟,将图模型更好的应用于多模态信息,提升图像检索的实用性、灵活性和准确率,可用于海量图像检索领域。 1 | ||
搜索关键词: | 模态信息 图像检索 多模态信息 超图模型 检索图像 构建 语义鸿沟 准确率 图像 海量图像检索 关联矩阵 关系构建 检索结果 距离矩阵 权重矩阵 视觉内容 图像排序 用户标签 图模型 融合 减小 可用 地理位置 关联 返回 应用 | ||
(1)提取每一幅待检索图像的视觉内容、用户标签和地理位置三种模态信息;
(2)对于每一种模态信息,采用不同的距离测量方法计算图像之间的距离,并构建所有待检索图像的视觉内容距离矩阵D1、用户标签距离矩阵D2和地理位置距离矩阵D3;
(3)根据三种不同模态信息下的图像之间的距离,构建描述这三种模态信息之间关联的超图模型;
(4)根据超图模型的顶点和超边的关系构建关联矩阵Hk,Hk表示第k种模态信息下的关联矩阵,k=1,2,3,将三个关联矩阵Hk按列连接构建超图关联矩阵H;
(5)在三种不同模态信息下,利用图像与图像之间的距离,计算得到不同模态的超边权重进而构建第一权重矩阵Wk,再将三种模态信息的Wk的对角线相接形成超边权重矩阵W;
(6)根据用户给出的待检索图像设置超图模型的查询顶点,在步骤(3)构建的超图模型上,基于查询顶点利用超图关联矩阵H和对角矩阵W计算图像的排名分数并按照从高到低的顺序排序,返回前N个图像,即为检索结果,N的范围是[1,+∞)。
2.如权利要求1所述的方法,其特征在于,步骤(1)中提取每一幅待检索图像的视觉内容、用户标签和地理位置三种模态信息,按如下步骤进行:1a)提取待检索图像的视觉内容,即图像的HSV颜色直方图、Gist特征、Sift特征,得到视觉内容模态信息;
1b)将数据集中所有标签转换成小写,得到唯一的词典,并利用直方图统计标签的出现概率,删除图像库中频率小于1的标签,得到标签集,即为用户标签模态信息;
1c)根据每幅图像的地理标注信息得到图像的拍摄地点坐标,该地点坐标的经度和纬度信息即为图像的地理位置模态信息。
3.如权利要求1所述方法,其特征在于,步骤(2)中构建所有待检索图像的视觉内容距离矩阵D1,是根据图像视觉内容模态信息,先计算两两图像间的曼哈顿距离,再用两两图像间的曼哈顿距离组成视觉内容距离矩阵D1,D1的行和列是所有待检索图像的总数n,D1中的第i个图像和第j个图像之间的曼哈顿距离为D1(i,j),i∈(0,n),j∈(0,n),i≠j。4.如权利要求1所述方法,其特征在于,步骤(2)中构建所有待检索图像的用户标签距离矩阵D2,是先提取用户标签模态信息,再利用Skip‑gram模型将用户标签模态信息映射到向量空间,得到每个用户标签的向量;然后利用两两图像的用户标签向量计算两两图像的欧式距离;最后用两两图像的欧式距离组成用户标签距离矩阵D2,D2的行和列是所有待检索图像的总数n,D2中的第i个图像和第j个图像之间的欧氏距离为D2(i,j),i∈(0,n),j∈(0,n),i≠j。5.如权利要求1所述方法,其特征在于,步骤(2)中构建所有待检索图像的地理位置距离矩阵D3,是先提取地理位置模态信息,再利用Vincenty公式计算两两图像的地理位置距离,最后用两两图像的地理位置距离组成地理位置距离矩阵D3,D3的行和列是所有待检索图像的总数n,D3中的第i个图像和第j个图像之间的地理位置距离为D3(i,j),i∈(0,n),j∈(0,n),i≠j。6.如权利要求1所述的方法,其特征在于,步骤(3)中构建描述视觉内容、用户标签和地理位置这三种模态信息之间关联的超图模型,通过如下定义构建:定义V为一个有限的顶点集合,每一个顶点代表每一幅待检索图像;
分别在三种模态信息下,根据每幅待检索图像与其他图像的距离得到该待检索图像的K近邻图像,用该K近邻图像及待检索图像构成超边e,并定义E为超边e的集合,定义w为超边e的权重,得到构建的超图模型为:G=(V,E,w)。
7.如权利要求1所述的方法,其特征在于,步骤(4)中构建关联矩阵Hk,按如下步骤进行:4a)定义待检索图像的总数为n,计算第i个图像和第j个图像的关联值Ak(i,j):
其中,i∈(0,n),j∈(0,n),Ak(i,j)表示第k种模态信息下第i个图像和第j个图像的相似度,Dk(i,j)表示第k种模态信息下图像的距离矩阵Dk的元素,D~k表示Dk中所有元素的中值;
用关联值Ak(i,j)组成超图的顶点关联矩阵Ak;
4b)根据顶点关联矩阵Ak获得第一关联矩阵Hk:
4b1)先根据顶点关联矩阵Ak选取超图模型中每个顶点的K近邻,再连接顶点和它的K近邻顶点构成超边;
4b2)定义Hk(a,b)表示顶点与超边的关系,判断顶点b是否属于超边a:
若顶点b属于超边a,则设置Hk(a,b)=1,
若顶点b不属于超边a,则设置Hk(a,b)=0,
4b3)将a作为行,b作为列,用Hk(a,b)组成第一关联矩阵Hk,Hk的大小为|E|×|V|,|E|表示超边的总数,|V|表示超图顶点的总数,a∈(0,|E|),b∈(0,|V|)。
8.如权利要求1所述的方法,其特征在于,步骤(5)中构建第一权重矩阵Wk,通过如下方式构建:定义待检索图像的总数为n,第k种模态信息下的超边权重wk(e)为:
其中,i∈(0,n),j∈(0,n),i≠j,Ak(i,j)表示第k种模态信息下第i个图像和第j个图像的关联值,v表示超图模型的顶点,e表示超图模型的超边;
用wk(e)组成大小为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711324900.1/,转载请声明来源钻瓜专利网。