[发明专利]一种草图检索的数据处理方法在审

申请号：	202010795565.9	申请日：	2020-08-10
公开（公告）号：	CN111930981A	公开（公告）日：	2020-11-13
发明（设计）人：	沈乾彦;赵海峰	申请（专利权）人：	金陵科技学院
主分类号：	G06F16/532	分类号：	G06F16/532;G06F16/55;G06F16/58;G06K9/62
代理公司：	南京众联专利代理有限公司 32206	代理人：	蒋昱
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种草图检索数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种草图检索的数据处理方法。主要通过引入知识保持机制，在域损失函数、三元组损失函数、语义损失函数的基础上，额外增加构造了一个知识保持损失函数，以及利用上述所有损失函数进行训练，使得预训练模型在知识迁移过程中，既能够学习目标域的新知识，又能够保持从源域学习到的知识，从而提升草图检索的精度。

技术领域

本发明涉及草图检索领域。特别是涉及到一种草图检索的数据处理方法。

背景技术

目前检索方法主要有两种方式，一个是基于文本的图像检索，用户通过关键词查找，检索具有相同或相似标签的图像；另一个是基于内容的图像检索，用户通过输入图片检索内容相同或相似的其他图片。在这些检索方式中，随着触摸屏设备的使用越来越普遍，手绘草图因其方便快捷，使得利用草图检索图像的技术显示出了巨大的潜力。草图检索旨在利用简单的线条轮廓检索与其相似的图片。利用深度学习技术构建一个检索模型需要大量数据样本，然而大千世界图像信息非常丰富，但是草图素材相对而言却十分稀少，如何利用有限的训练数据对卷积网络进行训练，使得训练好的网络能够对全新草图素材(从未出现的类别)进行推理，检索出与其类别相同的图像，这门技术称为零学习(Zero-shotLearning)。

目前现有技术采用已经训练好的模型构建两个孪生网络，一个网络用于编码图像信息，另一个网络用于编码草图信息。网络主要由卷积神经网络和编码器组成，如图1左半部分所示。在训练过程中，采用三种损失函数的组合对网络参数进行修正，如图1右半部分所示。一个是域损失函数，它包含一个域分类，用于对数据来源进行分类。第二个是三元组损失函数，它的输入包含三种数据，分别是草图数据、正样本图像数据和负样本图像数据，其中正样本图像数据的类别与草图数据的类别一致，负样本图像数据的类别与草图数据的类别不一致。第三个是语义损失函数，它包含一个语义重构器，训练孪生网络将语义信息融入到编码器中。

在现有技术中，利用源域已经训练好的模型，将其从源域迁移到目标域，使其学习得到从草图推理到图像的知识。然而在知识迁移之后，获得的孪生网络虽然对目标域的分类能力不断提升，但对源域的分类能力却大幅下降，导致整体的推理能力变差，草图检索精度降低。

因此，如何提高草图检索精度是亟待解决的技术问题。

发明内容

为了解决上述存在问题。本发明提供一种草图检索的数据处理方法。引入知识保持机制，并在此基础上进一步引入加权知识保持，在迁移之后，不仅学习到目标域的新知识，同时也能够保持源域的知识，从而提高网络的整体推理能力，提升草图检索精度。

为达此目的：

本发明提供了一种草图检索的数据处理方法，该方法包括：

获取来自于源域的图像分类器和其对应的第一类别集合，第一类别集合包括图像分类器能够分类的所有类别；

获取来自于目标域的待处理数据，包括图片、类别和来源标签，图片为图像或草图，

来源标签用于表示图片为图像或草图；

当图片为图像时，将图像类别属于第一类别集合的待处理数据划分到图像数据集合；

当图片为草图时，将草图类别属于第一类别集合的待处理数据划分到草图数据集合；

将图像数据集合和草图数据集合的并集，确定为训练样本的集合；