[发明专利]一种用于具现化场景问答任务的动作决策模型及方法有效
申请号: | 202010306319.2 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111539292B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 冯诗睿;吴恙;李冠彬;林倞 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V20/70 | 分类号: | G06V20/70;G06V10/26;G06V10/80;G06V10/82;G06F16/332;G06N3/0464;G06N3/0455;G06N3/0985 |
代理公司: | 广州蓝晟专利代理事务所(普通合伙) 44452 | 代理人: | 陈梓赫 |
地址: | 510275 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 具现化 场景 问答 任务 动作 决策 模型 方法 | ||
本发明公开了一种用于具现化场景问答任务的动作决策模型及方法,所述模型包括:预训练特征提取模组单元,用于对当前时间节点下的多模态输入特征分别进行提取;特征融合单元,用于将由多模态中提取出来的各个特征进行融合形成融合特征;融合特征解码单元,用于将当前时间节点融合特征向量解码为动作空间下的概率分布序列;时序融合动作决策单元,用于将当前及先前时间节点所获得的动作空间下的概率分布序列进行融合,根据融合得到的动作决策向量中的最大值对应的动作做出当前的动作决策。
技术领域
本发明涉及基于深度学习的计算机视觉技术领域,特别是涉及一种用于具现化场景问答任务的动作决策模型及方法。
背景技术
具现化场景问答任务是服务型人工智能机器人在虚拟三维环境中的一种具体实现任务,该任务要求机器人在陌生的房屋环境中根据人类提出的诸如“鱼缸是什么颜色?”等自然语言描述形式的问题,自主探索该陌生的房屋环境,并对人类提出的问题作出正确回答。一般情况下,为完成该任务,总体任务可以划分为三个大致的子任务:理解问题、遍历房屋、回答问题。在自然语言处理与计算机视觉等技术领域中,对于理解问题与回答问题已有一定程度的研究。对于具现化场景问答任务而言,完成整个任务的关键就在于机器人能否正确理解环境,并作出最正确而有效的动作规划,从而使回答问题这一下游子任务有尽可能可靠的输入。
然而,现存的所有具现化场景问答任务中的动作决策模型使用的方法均是基于简单的单步动作预测,其决策结果依赖于单一的循环神经网络,仅通过循环神经网络传递先前所经历过的状态,根据该状态和当前输入直接作出当前动作决策,并未考虑在时序上在未来参考过去所作出的路径预测。但是,这样的决策方式,一方面,每次决策仅依赖于当前历史状态向量和当前输入作出一步动作决策,其预测结果过度关注于短期的动作,可靠性差;另一方面,在决策时所使用的参考信息仅有循环神经网络隐藏层的信息,即历史状态的特征向量,决策的参考信息严重不足,同时由于每次决策未参考历史的决策,决策内容难以连贯。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种用于具现化场景问答任务的动作决策模型及方法,以通过引入序列解码机制,对于当前时间节点的状态作出更长的决策序列,并根据时序上多个决策序列综合进行当前时间节点下的动作决策,从而使根据当前时间节点的状态作出的动作决策更具有时序上的前后关联性,进而使动作决策效果更为平滑连贯而有效。
为达上述目的,本发明提出一种用于具现化场景问答任务的动作决策模型,包括:
预训练特征提取模组单元,用于对当前时间节点下的多模态输入特征分别进行提取;
特征融合单元,用于将由多模态中提取出来的各个特征进行融合形成融合特征;
融合特征解码单元,用于将当前时间节点融合特征向量解码为动作空间下的概率分布序列;
时序融合动作决策单元,用于将当前及先前时间节点所获得的动作空间下的概率分布序列进行融合,根据融合得到的动作决策向量中的最大值对应的动作做出当前的动作决策。
优选地,所述预训练特征提取模组单元进一步包括:
视觉特征提取模组,用于提取当前时间节点下输入图像的特征,编码为感知信息向量及启发信息向量;
语言特征编码单元,用于提取输入问题的语言特征,编码为语言特征向量。
优选地,所述视觉特征提取模组进一步包括:
视觉感知信息提取模块,用于使用预训练多任务卷积神经网络提取输入图像中的语义信息、深度信息,编码为所述感知信息向量;
视觉启发信息提取模块,用于使用预训练启发卷积神经网络提取输入图像中的启发信息,编码为所述启发信息向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010306319.2/2.html,转载请声明来源钻瓜专利网。