[发明专利]基于图感知的视觉对话答案生成方法及装置在审

专利信息
申请号: 202210685096.4 申请日: 2022-06-16
公开(公告)号: CN115129839A 公开(公告)日: 2022-09-30
发明(设计)人: 刘安安;徐宁;张国楷;郭俊波;靳国庆;张勇东 申请(专利权)人: 人民网股份有限公司;天津大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/36;G06F16/901;G06K9/62;G06N3/04;G06N3/08
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李林娟
地址: 100082 北京市西*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 感知 视觉 对话 答案 生成 方法 装置
【说明书】:

发明公开了一种基于图感知的视觉对话答案生成方法及装置,方法包括:根据各模态性质分别构建查询库,根据查询要素对模态内信息敏感程度不同,利用自注意力机制对特征向量分配权重加和,保留在实际场景中利于推理过程的模态特征;对历史对话进行实体识别和关系检测,以实体作为节点,关系作为有向边构建基础图架构,利用GloVe词向量对实体与关系进行编码;通过迭代更新多次增强图语义,旨在多次将图内信息反馈回对话历史和图像内容中,信息传递过程呈现闭环,用来充分挖掘模态间的交互关系;将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器,实现多模态信息协同表征,生成针对当前场景所提出问题的答案。装置包括:处理器和存储器。

技术领域

本发明涉及视觉对话生成领域,尤其涉及一种基于图感知的视觉对话基于图感知的视觉对话答案生成方法及装置。

背景技术

随着人工智能的不断发展,视觉对话在计算机视觉和自然语言处理的交叉领域受到了前所未有的关注。在该任务中,给定一张图片、图片描述以及一组对话(即多轮问答对),智能体能够根据当前问题充分理解跨模态语义的潜在关联,并且推理出精确答案。与其他视觉语言任务,例如:图像描述生成[1]、场景图生成[2]、视觉常识推理[3]、视觉问答(VQA)[4]等不同,为了根据实际需求和应用场景进一步探讨视觉与语言之间的深层语义依赖关系,视觉对话不仅要求文本与图像之间存在细粒度的跨模态理解,而且要求当前问题、对话历史与视觉信息之间具有全局语义依赖性。这项技术旨在通过智能体对当前问题进行精准反馈为人类答疑解惑,来代替人类感知与思考。可以广泛应用于人机交互,帮助视障用户感知周边信息等。为了搭建视觉对话生成研究平台,VisDial v0.9与VisDial v1.0数据集被提出[5],以便验证模型在实际场景中的应用能力。

现有方法[6-11]在视觉对话生成方面展现了创新方法和出色表现,研究者主要将研究中心放在如何利用注意力机制以文本信息引导视觉信息的提取,然后将多模态特征进行嵌入融合,最终送入解码器中解析出答案线索,已有的框架像DAN[6]、RAA-Net[7]均取得良好性能。然而这个推理过程是单向的,导致跨模态交互不足,生成答案的精度以及丰富度受限。而GNN[8]、FGA[9]等框架引入图结构可以缓解这一缺点,将文本与视觉抽象出多层级语义用来构建图,通过消息传递的图内循环方式,实现包含多模态信息的图节点间交互,再对图进行嵌入得到图特征用于答案生成。

然而,上述现有模型过于重视图中高阶信息在推理过程中的作用,忽视原本自然语言和视觉内容的推理能力,使其在推理过程中的作用得到一定程度的削弱。这说明亟需引入动态结构来优化模型,使得图模态与视觉文本之间建立密切的交互关系,通过图外循环强化视觉与文本的推理作用。在以往的文献中,并没有采用图结构作为媒介来丰富对话回合和视觉区域语义的策略。

综上所述,尽管视觉对话生成领域已经取得一系列进展[8,9],但是仍然没有设计出图感知的多模态语义交互框架,忽略了图模态与视觉文本之间密切交互对于推理的作用。目前主流方法仍是对原始信息进行特征提取与融合,这种单向粗粒度操作无法充分发掘文本与视觉之间的语义依赖关系,从而损害针对当前场景的答案生成效果。

基于此研究现状,目前面临的挑战主要有以下三个方面:

1、如何从视觉文本多模态信息中抽象出图结构继而对图语义进行迭代增强;

2、如何将图中高阶信息反馈回对话历史和图像区域中并优化其自注意力加权过程;

3、如何将图模态特征和文本、视觉等特征进行联合特征嵌入以及对当前问题进行协同推理。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民网股份有限公司;天津大学,未经人民网股份有限公司;天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210685096.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top