[发明专利]一种图像区域定位的方法、模型训练的方法及相关装置在审
申请号: | 201910190207.2 | 申请日: | 2019-03-13 |
公开(公告)号: | CN109903314A | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 马林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06T7/73 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种图像区域定位的方法,包括:获取待定位图像中的图像候选区域集合;根据图像候选区域集合生成区域语义信息集合;通过图卷积网络获取区域语义信息集合所对应的增强语义信息集合,图卷积网络用于构建各个区域语义信息之间的关联关系;获取待定位文本所对应的文本特征集合;通过图像区域定位网络模型获取文本特征集合与每个增强语义信息的匹配度;根据文本特征集合与每个增强语义信息的匹配度,从图像候选区域集合中确定目标图像候选区域。本申请还公开了一种模型训练的方法及相关装置。本申请采用图卷积网络增强图像候选区域之间的语义表示,从而有利于提升图像区域定位的准确性,进而提升对图像的理解能力。 | ||
搜索关键词: | 图像候选 图像区域 区域集合 区域语义 文本特征 语义信息 集合 模型训练 相关装置 信息集合 匹配度 申请 待定位图像 定位网络 关联关系 候选区域 模型获取 目标图像 网络获取 网络增强 语义表示 构建 文本 图像 网络 | ||
【主权项】:
1.一种图像区域定位的方法,其特征在于,包括:获取待定位图像中的图像候选区域集合,其中,所述图像候选区域集合中包括N个图像候选区域,所述N为大于或等于1的整数;根据所述图像候选区域集合生成区域语义信息集合,其中,所述区域语义信息集合中包括N个区域语义信息,每个区域语义信息对应一个图像候选区域;通过图卷积网络获取所述区域语义信息集合所对应的增强语义信息集合,其中,所述增强语义信息集合中包括N个增强语义信息,每个增强语义信息对应于一个区域语义信息,所述图卷积网络用于构建各个区域语义信息之间的关联关系;获取待定位文本所对应的文本特征集合,其中,所述待定位文本包括T个词语,所述文本特征集合包括T个词语特征,每个词语对应于一个词语特征,所述T为大于或等于1的整数;通过图像区域定位网络模型获取所述文本特征集合与所述每个增强语义信息的匹配度,其中,所述图像区域定位网络模型用于确定所述图像候选区域与所述待定位文本之间的匹配关系;根据所述文本特征集合与所述每个增强语义信息的匹配度,从所述图像候选区域集合中确定目标图像候选区域。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910190207.2/,转载请声明来源钻瓜专利网。