[发明专利]一种基于语义信息融合的少样本目标检测方法在审
申请号: | 201910806167.X | 申请日: | 2019-08-29 |
公开(公告)号: | CN110555475A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 毕盛;黎潇潇;董敏 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 44245 广州市华学知识产权代理有限公司 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本描述 构建 原型 目标检测器 视觉特征 样本目标 语义特征 图像 嵌入 检测器 待检测图像 金字塔网络 构造特征 基础数据 目标检测 融合图像 图像数据 图像特征 文本语义 样本数据 语义信息 分类器 检测 准确率 度量 语句 主干 标签 验证 融合 | ||
1.一种基于语义信息融合的少样本目标检测方法,其特征在于,包括以下步骤:
1)获取基础数据,包括支持集类别的图像数据、标签、文本描述语句及验证图像;
2)提取支持集图像的视觉特征、文本描述语义特征,并分别构造特征原型;
3)在视觉特征原型中嵌入文本语义特征原型;
4)构建用于嵌入检测器中的基于度量的分类器头;
5)构建基于特征金字塔网络FPN主干的目标检测器;
6)获取待检测图像并利用构建好的目标检测器进行目标检测。
2.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤1)中,支持集类别的图像数据是指从数据集中获得的用作模型支持集的RGB图像,所述标签为图像中物体的位置及所属类别,所述文本描述语句是指从数据集中获得的对应每个类别物体的文本描述语句,所述验证图像是指从数据集中支持集以外随机获取的用于验证检测器效果的RGB图像。
3.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤2)中,所述提取支持集图像中各类别的视觉特征、文本描述语义特征,并分别构造特征原型的步骤包括:
2.1)每个包含N个图像示例的支持集C的集合描述为:
C={(x1,L1,s1),...,(xN,LN,sN)}
其中,xi表示图像示例,Li表示其标签,si表示其文本描述语句,下标i=1,2,3,…,N,为索引号;
2.2)基于卷积神经网络CNN提取可视化特征,每个点的卷积运算为:
式中,y为输出的特征映射,p0为每个像素位置,对于卷积核R有R={(-1,-1),(-1,0),…,(0,1),(1,1)},pn为卷积核中每个点的坐标,w(p0)为位置p0的权重,x为输入的原始图像,通过该卷积运算得到其可视化特征向量f(x);
2.3)对每个类别图像示例的特征向量求加权平均值得到其视觉原型V:
式中,Cr为某个类别,f(xi)为原始图像的可视化特征向量,i为索引号;
2.4)利用预先训练好的句子嵌入特征提取器BERT提取该类别的文本语义特征向量f(s),s为类别Cr的文本描述语句;
2.5)基于多层感知机MLP生成该类别图像的语义原型O,根据每个类别的语义特征数确定文本语义原型O的数量k,用于嵌入视觉原型。
4.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤3)中,在视觉特征原型中嵌入文本语义特征原型的步骤包括:
3.1)为每个语义原型O添加注意力机制,即在MLP输出层增加一个sigmoid函数计算一个系数αi,使视觉原型的系数为αi,文本语义原型的系数为1-αi;
3.2)将视觉原型V与文本语义原型Oi结合得到类别原型P:
式中,k为语义原型的数量,αj为由sigmoid函数计算出的系数,i、j为索引号,其中j=i+1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910806167.X/1.html,转载请声明来源钻瓜专利网。