[发明专利]一种基于区域表示和视觉表示的视觉问答方法及系统有效

专利信息
申请号: 202310768905.2 申请日: 2023-06-28
公开(公告)号: CN116542995B 公开(公告)日: 2023-09-22
发明(设计)人: 徐昊;高玲;盛楠;石立达;张洪达 申请(专利权)人: 吉林大学
主分类号: G06T7/11 分类号: G06T7/11;G06N3/0464;G06V10/22;G06V10/764;G06V10/80
代理公司: 北京盛询知识产权代理有限公司 11901 代理人: 相凡
地址: 130012 吉林省长*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 区域 表示 视觉 问答 方法 系统
【权利要求书】:

1.一种基于区域表示和视觉表示的视觉问答方法,其特征在于,步骤包括:

基于Faster R-CNN模型学得的图像区域特征,为每张待问答图像构建图像区域特征图;

基于所述图像区域特征图,生成邻居增强的区域表示;生成所述邻居增强的区域表示的方法包括:在所述图像区域特征图中对每个区域节点的信息和节点的邻居信息进行整合,生成所述邻居增强的区域表示;采用带重启的随机游走机制来关注区域特征图中所有节点的邻居增强的区域表示:为图像Ii构建的图像区域特征图被记为,其中表示Ii的区域特征图中所有节点的集合,是区域特征图中所有区域节点的特征表示,对于的关联矩阵被行归一化为概率转移矩阵,所述带重启的随机游走机制包括:

其中,表示步行者在任意时刻返回起始节点的概率;表示步行者在t=0时刻时,处于初始节点;和分别表示在tt+1时刻步行者从第m个节点到达其他节点的概率;表示的转置矩阵;和分别表示tt+1时刻步行者到达各个节点的概率;表示一个对角矩阵;所述随机游走机制结束后,迭代过程停止;收敛后的最终结果向量涵盖了起始节点与行走后所有节点之间的关联关系,所述最终结果向量即为所述邻居增强区域表示;

基于GRU模型学得的问题特征对所述邻居增强的区域表示进行指导,得到最终的视觉特征;

基于所述区域表示、所述视觉特征和所述问题特征,得到预测答案,完成视觉问答。

2.根据权利要求1所述的基于区域表示和视觉表示的视觉问答方法,其特征在于,将待问答图像的每个区域作为所述图像区域特征图中的节点,并将每个所述待问答图像的区域特征作为节点属性;所述图像区域特征图由加权边组成;其中,图像区域之间关联的计算过程包括:

其中,vmvn分别表示区域m和区域n的低维特征;的值越大,表示第m个和第n个区域节点之间的关联性越强。

3.根据权利要求1所述的基于区域表示和视觉表示的视觉问答方法,其特征在于,得到所述视觉特征的方法包括:利用问题引导的纵横双注意力机制,增强与问题相关的区域表征,并在区域和表征层面保留关键特征,得到所述视觉特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310768905.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top