[发明专利]外观专利的多模态图像检索方法及系统有效

申请号：	202010291845.6	申请日：	2020-04-14
公开（公告）号：	CN111597371B	公开（公告）日：	2023-04-28
发明（设计）人：	叶街林;杨志景;谭俊鹏	申请（专利权）人：	广东工业大学
主分类号：	G06F16/55	分类号：	G06F16/55;G06F16/583;G06F16/58;G06V10/44;G06V10/80;G06V10/762;G06V10/764;G06V10/82;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08;G06F16/33
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510060 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	外观专利多模态图像检索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.外观专利的多模态图像检索方法，其特征在于，包括以下步骤：

S1.提取外观专利多视图的图像特征及文本特征；

所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征，得到z₁,z₂,…,z_n，其中n表示外观专利的视图个数；对所述图像特征进行加权融合，得到多视图融合的图像特征：i表示外观专利的第i个视图，β表示外观专利第i个视图的权重；

S2.对所述图像特征及文本特征进行深度视觉语义量化，利用深度学习方法最小化深度视觉语义量化的目标函数，从而训练得到外观专利多模态图像检索模型；其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入，对所述图像特征进行视觉语义量化编码；

步骤S2所述的对所述图像特征及文本特征进行深度视觉语义嵌入具体包括：定义训练阶段的自适应间隔损失函数：

设表示训练阶段的N1个原始图像的文本特征数据点，而每一个文本特征数据点都与标签集y(y_n∈y)当中的某几个有关；表示自适应间隔，用于保证图像特征z_n与正确文本标签的单词特征v_i之间的内积相正确文本标签的单词特征似性要大于其与错误文本标签的单词特征v_j之间的内积相似性；

步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括：每个图像特征z_n被M个码本C＝[C₁,…,C_M]量化，其中每个码本C_m都包含了K个码字C_m＝[C_m1,…,C_mK]，每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量；

相应于M个码本，紧凑二进制编码也被分为M个部分b_1n,…,b_Mn，即则z_n表示为

定义训练阶段的量化误差为：

上式服从于离散限制||b_mn||₀＝1并且b_mn∈{0,1}^K，用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征z_n；

步骤S2所述的外观专利多模态图像检索模型具体为：

其中，α是自适应间隔损失与量化误差之间的权衡权重，w,C,B是模型需要更新的参数，w是网络参数集；

S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索，基于距离编码排序得到检索结果。

2.根据权利要求1所述的外观专利的多模态图像检索方法，其特征在于，所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的文本特征{v}。

3.根据权利要求1所述的外观专利的多模态图像检索方法，其特征在于，所述步骤S3具体包括：

基于步骤S2训练好的模型，对用于查询的数据库向量进行视觉语义量化编码得数据库向量中每个向量的紧凑编码表示为：

其中B_n为距离编码；

利用非对称距离计算方法对查询向量y与用于查询的数据库向量x_n进行距离估计：

其中，是属于x_n的距离编码B_n所对应的距离；其中查询向量y为目标外观专利经所述步骤S1得到；

对计算得到的距离估计按升序排序，抽取其前k个作为检索结果。

4.外观专利的多模态图像检索系统，其特征在于，包括：

特征提取模块，用于提取外观专利多视图的图像特征及文本特征；

深度视觉语义量化模块，用于对所述图像特征及文本特征进行深度视觉语义量化，利用深度学习方法最小化深度视觉语义量化的目标函数，从而训练得到外观专利多模态图像检索模型；其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入，对所述图像特征进行视觉语义量化编码；

所述的对所述图像特征及文本特征进行深度视觉语义嵌入具体包括：定义训练阶段的自适应间隔损失函数：

所述的对所述图像特征进行视觉语义量化编码具体包括：每个图像特征z_n被M个码本C＝[C₁,…,C_M]量化，其中每个码本C_m都包含了K个码字C_m＝[C_m1,…,C_mK]，每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量；

相应于M个码本，紧凑二进制编码也被分为M个部分b_1n,…,b_Mn，即则z_n表示为

定义训练阶段的量化误差为：

上式服从于离散限制||b_mn||₀＝1并且b_mn∈{0,1}^K，用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征z_n；

所述的外观专利多模态图像检索模型具体为：

其中，α是自适应间隔损失与量化误差之间的权衡权重，w,C,B是模型需要更新的参数，w是网络参数集；

图像检索模块，用于利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索，基于距离编码排序得到检索结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010291845.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载