[发明专利]基于图感知的视觉对话答案生成方法及装置在审
申请号: | 202210685096.4 | 申请日: | 2022-06-16 |
公开(公告)号: | CN115129839A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 刘安安;徐宁;张国楷;郭俊波;靳国庆;张勇东 | 申请(专利权)人: | 人民网股份有限公司;天津大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/901;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 100082 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 感知 视觉 对话 答案 生成 方法 装置 | ||
1.一种基于图感知的视觉对话答案生成方法,其特征在于,所述方法包括以下步骤:
根据各模态性质分别构建查询库,根据查询要素对模态内信息敏感程度不同,利用自注意力机制对特征向量分配权重加和,保留在实际场景中利于推理过程的模态特征;
对历史对话进行实体识别和关系检测,以实体作为节点,关系作为有向边构建基础图架构,利用GloVe词向量对实体与关系进行编码;
通过迭代更新多次增强图语义,旨在多次将图特征反馈回对话历史和图像内容,信息传递过程呈现闭环,挖掘模态间的交互关系;
将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器,实现多模态信息协同表征,生成针对当前场景所提出问题的答案。
2.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法,其特征在于,所述方法还包括:
利用长短期记忆网络LSTM对视觉描述以及对话历史等文本信息进行编码,根据文本信息初始化基础有向图,利用Faster-RCNN对图片特征进行特征提取。
3.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法,其特征在于,所述构建基础图架构具体为:
根据文本信息句法结构及语义,识别文本信息中的实体与关系,初始化有向图,利用视觉描述和问题特征对图中各节点进行全局语义增强,将图节点特征进行整合分别送入历史对话和图片特征中,经查询库中各查询向量挑选之后,再将问题相关的对话特征和图片特征对图节点进行语义增强。
4.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法,其特征在于,所述将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器,实现多模态信息协同表征,生成针对当前场景所提出问题的答案具体为:
将多阶段的高阶语义图进行节点级别特征融合,再进行嵌入以生成图向量,并将图向量再次反馈回相关对话回合和图片区域进行向量拼接并加权求和,经多层感知机和激活函数后得到答案推理特征。
5.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法,其特征在于,所述方法还包括:
利用全连接层、多层感知机、激活函数及自注意力;联合嵌入文本、视觉以及图特征。
6.一种基于图感知的视觉对话答案生成装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民网股份有限公司;天津大学,未经人民网股份有限公司;天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210685096.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示模组及其制备方法、显示装置
- 下一篇:一种煤矿矿石加工用清洗设备