[发明专利]一种基于多模态学习的视觉对话生成方法及装置有效
申请号: | 202110848206.X | 申请日: | 2021-07-27 |
公开(公告)号: | CN113553418B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 刘安安;张国楷;徐宁;宋丹;靳国庆;张勇东 | 申请(专利权)人: | 天津大学;人民网股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/583;G06F40/211;G06F40/30;G06F40/253;G06N3/0442;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 学习 视觉 对话 生成 方法 装置 | ||
1.一种基于多模态学习的视觉对话生成方法,其特征在于,所述方法包括以下步骤:
1)利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
2)用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
3)将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案;
其中,根据文本信息语法结构及其性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入四阶段完成;视觉结构化表征由目标检测、关系识别、ELMo词向量表征嵌入三阶段完成,得到“主体-关系-客体”形式的多个关系三元组;
以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和得到HC,利用神经网络更新得到
其中,WH表示处理原历史对话信息HC的全连接层的参数,sigmoid表示激活函数;
其中,表示更新后的问题向量,WQ表示处理原问题向量Q的全连接层的参数,tanh表示激活函数,将与再进行信息融合得到文本融合信息
其中,是文本核心信息融合阶段的输出,WQH表示表示处理更新问题向量与更新历史向量的融合信息的全连接层的参数;
选择双层视觉自注意力机制进行各视觉向量的挑选,在将各个向量进行加权求和之后得到视觉融合信息
进行视觉文本信息联合嵌入:
其中,是当前问题、相关历史对话回合、相关视觉区域的多模态融合信息,relu是激活函数,WQHV1和WQHV2为全连接层参数;
将文本融合信息和视觉融合信息对其进行语义补全,先后融合视觉和文本信息,再用问题信息对两模态结构化表征中的多个三元组进行加权求和,得到对话三元组融合信息和视觉三元组融合信息
将精简历史信息、精简视觉信息、多模态问题相关信息进行特征融合,将三股数据流中的信息进行整合,得到最终的多模态答案推理信息R:
2.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法,其特征在于,在步骤1)之前,所述方法还包括:
解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再进行向量嵌入。
3.根据权利要求2所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述解析文本信息语法结构具体为:
根据文本信息语法结构及性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
4.根据权利要求2所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述视觉信息目标关系具体为:
由目标检测、关系识别、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
5.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述将多模态问题相关信息进行融合包括:文本核心信息融合和视觉核心信息融合,
文本核心信息融合,将图像中的总结性信息与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和,并利用神经网络更新;
视觉核心信息融合,定义第一阶段的文本融合信息作为关键信息融合各个视觉区域向量进行上下文语义补全;选择双层视觉自注意力机制进行各视觉向量的挑选,将各个向量进行加权求和之后得到视觉融合信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学;人民网股份有限公司,未经天津大学;人民网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110848206.X/1.html,转载请声明来源钻瓜专利网。