[发明专利]基于可解释视觉推理模型的危险预警描述自动生成方法有效
申请号: | 202010106747.0 | 申请日: | 2020-02-19 |
公开(公告)号: | CN111325347B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 聂礼强;战新刚;何建明;赵振兵;甘甜;董兴宁 | 申请(专利权)人: | 山东大学;智洋创新科技股份有限公司;浙江辉博电力设备制造有限公司;华北电力大学(保定) |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06V20/40;G06V10/82;G06V10/80;G06V10/774;G06V20/70;G06N3/042;G06N3/045;G06N3/096 |
代理公司: | 济南竹森知识产权代理事务所(普通合伙) 37270 | 代理人: | 吕利敏;孙宪维 |
地址: | 250000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 可解释 视觉 推理 模型 危险 预警 描述 自动 生成 方法 | ||
1.一种基于可解释视觉推理模型的危险预警描述自动生成方法,其特征在于,包括以下步骤:
S1:建立先验知识库;
S2:建立数据集:包括建立平面目标检测数据集、三维目标检测数据集和危险推理模型数据集;
S3:训练平面目标检测器;
S4:训练三维目标检测器;
S5:使用平面目标检测器检测视频帧中所有目标类型,并结合三维目标检测器提取物体的平面空间关系特征和三维空间关系特征;
S6:结合步骤S1中的先验知识库和步骤S5中检测出的目标类型构建该视频帧的目标语义关系图,并通过图卷积网络提取视频帧中目标物体的语义关系特征;
S7:融合步骤S5和步骤S6中得到的空间关系特征和语义特征,并通过模块化的推理模型进行训练;
S8:将步骤S7中推理结果,结合步骤S1中先验知识库,给出该视频帧中的危险等级和/或预警描述;
所述步骤S1中建立先验知识库具体包括:
S11:定义场景下所可能包含的所有目标类别:设定义的目标总数为P;并定义第i类目标的语义为Oobject(i);
S12:定义目标彼此之间的空间位置关系类别:设定义的空间关系总数为N;并定义第i类关系的语义为Oaction(i);
S13:对步骤S12中定义的每种空间位置关系,根据实际场景,标注出所有可能存在危险的目标配对;
S14:将步骤S11中的所有目标用one-hot向量表示,得到一个P维的目标向量;再根据步骤S13中每种关系的危险配对,构建在空间关系r下大小为P*P的图邻接矩阵Ar,其中代表目标i与目标j是危险配对,代表目标i与目标j的配对不会产生危险:
S15:整合步骤S11中定义的目标向量、步骤S12中定义的空间位置关系、步骤S13和步骤S14中定义的危险配对矩阵,最终得到大小为N*P*P的一组先验知识图谱作为先验知识库;
所述步骤S2具体包括:
S21:对视频数据取帧并保存为图片并做预处理;
S22:对步骤S21中经预处理后的图片,进行人工标注;优选的,仿照Microsoft公司所开源的数据集MSCOCO,对步骤S21中经预处理后的图片,进行人工标注;优选的,并仿照MSCOCO的格式进行保存,保存所有在步骤S1中定义的目标的矩形框坐标信息;
S23:丰富数据集;
至此,经步骤S21,S22,S23建立的数据集,将用于步骤S3中的平面目标检测模型的迁移学习;
S24:继续针对图中的危险等级D,以及存在危险的空间关系类别r′,和存在危险的目标配对进行标注;并定义第i个危险等级的语义为Odanger(i);上述标注将使用三维数组保存,其中ψ(r,i,j)=D(D>0)代表关系r下目标i和目标j之间存在危险;
至此,经步骤S21,S22,S23,S24建立的数据集,将用于步骤S7中的危险推理模型的训练;
S25:复制步骤S23中的图像集,使用OpenGL命令对图中目标进行随机转换,并计算边界框与目标掩膜的IoU值,将IoU值大于0.5的作为正样本,其余的作为负样本,并确定每种变换所最可能使用的采样视点和平面旋转;
至此,经步骤S21,S22,S23,S25步建立的数据集,将用于步骤S4中的三维目标检测模型的迁移学习;
所述步骤S3训练平面目标检测器的方法包括:
S31:使用在数据集MSCOCO上预训练好的SSD300模型作为平面目标检测器的原始模型;
S32:使用步骤S23中建立的数据集对预训练的SSD300模型进行迁移学习,通过对其参数的微调;
S33:训练完成后,固定SSD300的模型参数,使之作为后续检测目标和提取图像平面特征的处理模型;
所述步骤S4训练三维目标检测器的具体方法包括:
S41:复制步骤S3中的模型,将其作为训练三维目标检测器的原始模型,即SSD-6D模型:
S42:基于训练好的SSD300模型,并使用步骤S25中建立的数据集对其进行训练;
S43:训练完成后,固定SSD-6D的模型参数,使之作为后续提取图像三维特征的处理模型;
所述步骤S5具体包括:
S51:使用步骤S3中训练好的SSD300模型对视频帧进行目标检测和平面限界框标注;并将检测出的目标保存为P维的向量,其中Pi=1代表在图中检测到目标i,Pi=0代表图中未发现目标i,设检测到的目标数为l;
S52:将步骤S51中标注的所有限界框依次保存到l张新图像上,抽取预训练好的ResNet101模型的部分特征图,对这l张新图像和包含所有限界框的原图像进一步提取特征,设最终提取的特征通道数为c2D,特征图为一个q*q维的矩阵,则最终得到大小为的二维空间特征;
S53:使用步骤S4中训练好的SSD-6D模型对视频帧进行三维限界框标注;并将标注的所有限界框依次保存到l张新图像上,同时抽取预训练好的ResNet101模型的部分特征图,进一步对上述l张图片和包含所有限界框的原图像提取特征,设最终提取的特征通道数为c3D,特征图为一个q*q维的矩阵,则最终得到大小为的三维空间特征;
所述步骤S6具体包括:
S61:根据步骤S51中检测到的l个目标,并结合S15中得到的先验知识图谱,构建相应的N*P*P维的任务图谱;
S62:对于步骤S61中所得到的N张P*P大小的子图,使用GraphSage方法对其提取两次特征;其中,采用平均聚合器作为聚合函数,其公式如下:
其中为v为中心节点,N(v)为节点v的所有邻居集合,u为节点v的某一邻居节点,为第k-1次GraphSage所得到的邻居节点u的特征矩阵,为第k次GraphSage所得到的节点v的特征矩阵,其中即为原始任务图的邻接矩阵,W为一个可学习参数矩阵,用来将的输入维度映射到的输出维度,MEAN为求均值函数,σ为激活函数;
设最终提取的特征通道数为cgraph,则通过两次GraphSage聚合特征后,得到大小为的特征表示;
所述步骤S7具体包括:
S71:针对每种空间关系r,从步骤S62中抽出该关系下的语义图Hr,并根据步骤S52和S53中得到的二维空间特征图T2D和三维空间特征图T3D,将其拼接成一组新的特征表示Xr=Hr+T2D+T3D;最终得到大小为的拼接特征矩阵,作为后续推理模型的输入;
S72:将步骤S71中每组特征表示Xr,通过模块化的多层感知机进行学习,最后输出在场景关系r下的危险预测矩阵并与标签值ψ(r)计算交叉熵损失,其中,代表机器预测在关系r下,目标i和目标j之间存在危险D;
S73:至此,整体模型训练完成。
2.根据权利要求1所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法,其特征在于,所述步骤S8具体包括:
S81:根据输入的一帧视频对应图片,首先根据步骤S5和步骤S6得到融合了语义特征,平面特征和三维特征的多元特征,输入到步骤S7中的多层MLP模型中,最终得到一个三维的危险预测矩阵其中N为步骤S1中定义的关系总数,P为步骤S1中定义的目标总数;
S82:依次检查预测矩阵的每一项,对不为0的值进行输出,并根据步骤S1中定义的目标类型、关系类型进行转译,以生成文字;设则转译规则为:“Oobject(i)(主语)+Oaction(r)(谓语)+Oobject(j)(宾语),Odanger(D)(危险等级)”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学;智洋创新科技股份有限公司;浙江辉博电力设备制造有限公司;华北电力大学(保定),未经山东大学;智洋创新科技股份有限公司;浙江辉博电力设备制造有限公司;华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010106747.0/1.html,转载请声明来源钻瓜专利网。