[发明专利]基于自然语言描述的三维场景目标检测建模及检测方法有效
申请号: | 202110251422.6 | 申请日: | 2021-03-08 |
公开(公告)号: | CN113034592B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 冯明涛;张亮;朱光明;宋娟;沈沛意 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06K9/62;G06F40/289 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 王芳 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 描述 三维 场景 目标 检测 建模 方法 | ||
1.基于自然语言描述的三维场景目标检测建模方法,其特征在于,包括如下步骤:
步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;
步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;
步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为基于自然语言描述的三维场景目标检测模型;
所述的图网络构建方法,包括如下步骤:
步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;
步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;
步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;
步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;
步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;
步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候选框的视觉特征和存在关系短语的每对候选框的最小联合区域的几何特征,将存在关系短语的每对候选框的视觉特征和几何特征进行级联得到存在关系短语的每对候选框的级联关系特征;
以候选框为节点,以关系短语为边,以候选框的目标特征为节点特征,以存在关系短语的每对候选框的级联关系特征为边特征,构建初始三维目标候选框视觉关系图网络;
步骤7:采用注意力机制对初始三维目标候选框视觉关系图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得三维目标候选框视觉关系图网络。
2.如权利要求1所述的基于自然语言描述的三维场景目标检测建模方法,其特征在于,步骤三进行训练时,每次迭代后对语言场景图和三维目标候选框视觉关系图进行图匹配,并根据图匹配结果计算损失函数并进行下次迭代,包括如下子步骤:
计算语言场景图中的每个名词短语节点和三维目标候选框视觉关系图中的每个目标候选框节点的节点图匹配得分,计算语言先验图中每条边和三维目标视觉关系图中每条边的边图匹配得分;
获取边图匹配得分值最高的三维目标视觉关系图中边作为目标候选框关系边,选取该目标候选框关系边连接的两个目标候选框节点中节点图匹配得分值最高的目标候选框作为本次迭代得到的最终目标候选框,根据目标候选框与真实目标候选框计算损失函数,更新模型参数并进行下次迭代。
3.如权利要求2所述的基于自然语言描述三维场景目标检测的建模方法,其特征在于,所述的损失函数为:
其中为目标候选框裁剪中名词短语与候选框相似匹配得分计算的损失,为目标候选框更新中候选框偏移量计算的损失,为图匹配最终目标定位中边的相似性得分计算的损失,为图匹配的相似性得分计算的损失,Ldet为三维目标候选框初始化的损失,τ1,τ2,τ3,τ4为加权系数且取值范围均为0-1。
4.基于自然语言描述的三维场景目标检测方法,其特征在于,包括如下步骤:
步骤Ⅰ:获取待检测三维场景点云及待检测三维场景点云的一条自然语言描述;
步骤Ⅱ:将待检测三维场景点云及待检测三维场景点云的一条自然语言描述输入权利要求1-3中任一种基于自然语言描述的三维场景目标检测的建模方法得到的基于自然语言描述的三维场景目标检测模型中得到目标候选框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110251422.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:硅片硼扩散用可喷涂硼源及其应用
- 下一篇:充填下料装置及方法