[发明专利]一种基于多级图像上下文编解码的图像人物行为描述生成方法有效

专利信息
申请号: 202110776126.8 申请日: 2021-07-08
公开(公告)号: CN113449801B 公开(公告)日: 2023-05-02
发明(设计)人: 田锋;南方;经纬;郑庆华 申请(专利权)人: 西安交通大学
主分类号: G06V10/80 分类号: G06V10/80;G06V10/774;G06V40/20;G06V10/82;G06V10/20;G06N3/0455
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 崔方方
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多级 图像 上下文 解码 人物 行为 描述 生成 方法
【权利要求书】:

1.一种基于多级图像上下文编解码的图像人物行为描述生成方法,其特征在于,包括:

一、训练模型

1)获取包括人物和物体对象的图像,进行标注,得到标注图像;

标注的内容包括人物主体的位置坐标、人物面部位置坐标、物体的位置坐标、物体类别、人物行为描述文本以及物体属性描述文本;

2)利用标注图像中的人物行为描述数据集训练带有区域提出功能的目标检测模型Det,直至能够检测并分类图像中的人物、物体,得到预训练的目标检测模型Det;

使用预训练的目标检测模型Det提取图像中的目标实体特征和每个待描述人物的多级上下文特征;

3)在基于Transformer的双路图像特征融合模型Cap中,利用两组独立的编码器EncoderE和EncodereC分别对图像实体信息和上下文信息进行编码,得到图像实体信息编码Eencode和上下文信息编码Cencode

4)利用解码器Decoder对所述图像实体信息编码Eencode和上下文信息编码Cencode进行解码,输出行为描述文本Word={word1,word2,...,wordlen};

其中,wordi为描述文本中第i个词的向量表示;

通过softmax函数计算输出每个位置对应各个词语的概率,将标注内容和输出行为描述文本Word的交叉熵总和作为损失并通过反向传播进行迭代优化,得到训练好的Cap模型;

二、使用模型

对于一张包括一个或多个待描述对象的输入图像,使用预训练的目标检测模型Det检测出人物和物体的位置,并通过RoI Pooling方式从卷积张量中提取各个目标实体特征和每个待描述人物的多级上下文特征,使用训练好的双路图像特征融合模型Cap对局部特征进行编码,得到图像实体信息编码Eencode和上下文信息编码Cencode,再使用解码器Decoder进行解码输出,从而对每个待描述对象的行为输出描述文本。

2.根据权利要求1所述的基于多级图像上下文编解码的图像人物行为描述生成方法,其特点在于,步骤2)中的实体特征包括人物目标、多类物体目标以及人脸目标所对应目标位置的图像特征;

所述上下文特征包括多级上下文区域对应的范围图像特征。

3.根据权利要求2所述的基于多级图像上下文编解码的图像人物行为描述生成方法,其特点在于,所述多级上下文区域包括局部区域、邻近区域和交互区域;

所述局部区域为人物目标区域的扩张范围;

所述邻近区域为包括人物与距离其最近的多个物体的最小范围的扩张;

所述交互区域为包括邻近区域和离描述对象的另一个人物的最小范围的扩张。

4.根据权利要求3所述的基于多级图像上下文编解码的图像人物行为描述生成方法,其特点在于,设单个描述对象矩形区域在图像中左上和右下两点坐标为多个相关物体和位置坐标其中第i个实体的位置坐标距离最近的另一个人物的位置坐标则多级上下文区域如下:

局部区域为单个描述对象的局部扩展区域,计算方式如下:

其中,P为扩张像素范围,在扩张之后将四个坐标值小于0的置为0,大于图像高度/宽度的置为图像高度/宽度;

邻近区域为包括待描述对象和与之相关的图像实体的最小矩形区域,四点坐标如下:

其中:

式中:W为图像宽度,H为图像高度;

交互区域包括邻近区域和距离待描述人物对象最近的另一个人物对象,四点坐标如下:

其中:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110776126.8/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top