[发明专利]一种基于语义信息融合的少样本目标检测方法在审

申请号：	201910806167.X	申请日：	2019-08-29
公开（公告）号：	CN110555475A	公开（公告）日：	2019-12-10
发明（设计）人：	毕盛;黎潇潇;董敏	申请（专利权）人：	华南理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	44245 广州市华学知识产权代理有限公司	代理人：	冯炳辉
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本描述构建原型目标检测器视觉特征样本目标语义特征图像嵌入检测器待检测图像金字塔网络构造特征基础数据目标检测融合图像图像数据图像特征文本语义样本数据语义信息分类器检测准确率度量语句主干标签验证融合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于语义信息融合的少样本目标检测方法，其特征在于，包括以下步骤：

1)获取基础数据，包括支持集类别的图像数据、标签、文本描述语句及验证图像；

2)提取支持集图像的视觉特征、文本描述语义特征，并分别构造特征原型；

3)在视觉特征原型中嵌入文本语义特征原型；

4)构建用于嵌入检测器中的基于度量的分类器头；

5)构建基于特征金字塔网络FPN主干的目标检测器；

6)获取待检测图像并利用构建好的目标检测器进行目标检测。

2.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤1)中，支持集类别的图像数据是指从数据集中获得的用作模型支持集的RGB图像，所述标签为图像中物体的位置及所属类别，所述文本描述语句是指从数据集中获得的对应每个类别物体的文本描述语句，所述验证图像是指从数据集中支持集以外随机获取的用于验证检测器效果的RGB图像。

3.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤2)中，所述提取支持集图像中各类别的视觉特征、文本描述语义特征，并分别构造特征原型的步骤包括：

2.1)每个包含N个图像示例的支持集C的集合描述为：

C＝{(x₁,L₁,s₁),...,(x_N,L_N,s_N)}

其中，x_i表示图像示例，L_i表示其标签，s_i表示其文本描述语句，下标i＝1,2,3,…,N，为索引号；

2.2)基于卷积神经网络CNN提取可视化特征，每个点的卷积运算为：

式中，y为输出的特征映射，p₀为每个像素位置，对于卷积核R有R＝{(-1,-1),(-1,0),…,(0,1),(1,1)}，p_n为卷积核中每个点的坐标，w(p₀)为位置p₀的权重，x为输入的原始图像，通过该卷积运算得到其可视化特征向量f(x)；

2.3)对每个类别图像示例的特征向量求加权平均值得到其视觉原型V：

式中，C_r为某个类别，f(x_i)为原始图像的可视化特征向量，i为索引号；

2.4)利用预先训练好的句子嵌入特征提取器BERT提取该类别的文本语义特征向量f(s)，s为类别C_r的文本描述语句；

2.5)基于多层感知机MLP生成该类别图像的语义原型O，根据每个类别的语义特征数确定文本语义原型O的数量k，用于嵌入视觉原型。

4.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤3)中，在视觉特征原型中嵌入文本语义特征原型的步骤包括：

3.1)为每个语义原型O添加注意力机制，即在MLP输出层增加一个sigmoid函数计算一个系数α_i，使视觉原型的系数为α_i，文本语义原型的系数为1-α_i；