[发明专利]外观专利的多模态图像检索方法及系统有效
申请号: | 202010291845.6 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111597371B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 叶街林;杨志景;谭俊鹏 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/583;G06F16/58;G06V10/44;G06V10/80;G06V10/762;G06V10/764;G06V10/82;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08;G06F16/33 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 外观 专利 多模态 图像 检索 方法 系统 | ||
1.外观专利的多模态图像检索方法,其特征在于,包括以下步骤:
S1.提取外观专利多视图的图像特征及文本特征;
所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征,得到z1,z2,…,zn,其中n表示外观专利的视图个数;对所述图像特征进行加权融合,得到多视图融合的图像特征:i表示外观专利的第i个视图,β表示外观专利第i个视图的权重;
S2.对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;
步骤S2所述的对所述图像特征及文本特征进行深度视觉语义嵌入具体包括:定义训练阶段的自适应间隔损失函数:
设表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关;表示自适应间隔,用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相正确文本标签的单词特征似性要大于其与错误文本标签的单词特征vj之间的内积相似性;
步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括:每个图像特征zn被M个码本C=[C1,…,CM]量化,其中每个码本Cm都包含了K个码字Cm=[Cm1,…,CmK],每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量;
相应于M个码本,紧凑二进制编码也被分为M个部分b1n,…,bMn,即则zn表示为
定义训练阶段的量化误差为:
上式服从于离散限制||bmn||0=1并且bmn∈{0,1}K,用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征zn;
步骤S2所述的外观专利多模态图像检索模型具体为:
其中,α是自适应间隔损失与量化误差之间的权衡权重,w,C,B是模型需要更新的参数,w是网络参数集;
S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。
2.根据权利要求1所述的外观专利的多模态图像检索方法,其特征在于,所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的文本特征{v}。
3.根据权利要求1所述的外观专利的多模态图像检索方法,其特征在于,所述步骤S3具体包括:
基于步骤S2训练好的模型,对用于查询的数据库向量进行视觉语义量化编码得数据库向量中每个向量的紧凑编码表示为:
其中Bn为距离编码;
利用非对称距离计算方法对查询向量y与用于查询的数据库向量xn进行距离估计:
其中,是属于xn的距离编码Bn所对应的距离;其中查询向量y为目标外观专利经所述步骤S1得到;
对计算得到的距离估计按升序排序,抽取其前k个作为检索结果。
4.外观专利的多模态图像检索系统,其特征在于,包括:
特征提取模块,用于提取外观专利多视图的图像特征及文本特征;
深度视觉语义量化模块,用于对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;
所述的对所述图像特征及文本特征进行深度视觉语义嵌入具体包括:定义训练阶段的自适应间隔损失函数:
设表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关;表示自适应间隔,用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相正确文本标签的单词特征似性要大于其与错误文本标签的单词特征vj之间的内积相似性;
所述的对所述图像特征进行视觉语义量化编码具体包括:每个图像特征zn被M个码本C=[C1,…,CM]量化,其中每个码本Cm都包含了K个码字Cm=[Cm1,…,CmK],每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量;
相应于M个码本,紧凑二进制编码也被分为M个部分b1n,…,bMn,即则zn表示为
定义训练阶段的量化误差为:
上式服从于离散限制||bmn||0=1并且bmn∈{0,1}K,用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征zn;
所述的外观专利多模态图像检索模型具体为:
其中,α是自适应间隔损失与量化误差之间的权衡权重,w,C,B是模型需要更新的参数,w是网络参数集;
图像检索模块,用于利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010291845.6/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序