[发明专利]基于语义对齐的视觉对话生成系统在审
申请号: | 202010577719.7 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111967272A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 孙晓;王佳敏;汪萌 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 对齐 视觉 对话 生成 系统 | ||
1.一种基于语义对齐的视觉对话生成系统,其特征在于,包括:编码器和生成式解码器;
所述编码器用于:
通过Faster R-CNN的变体模型,提取给定图像的区域视觉特征;
通过概念提取器,获得从所述给定图像提取的文本单词构成的词向量;
采用co-attention机制,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,得到基于语义对齐的全局图像特征;
通过DenseCap模型,提取所述给定图像的使用文本表述的区域图像描述;
通过第一LSTM模型提取当前轮问题的特征,通过第二LSTM提取对话历史的特征,通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合,得到融合对话历史的当前轮问题的特征;
根据融合对话历史的当前轮问题的特征,通过注意力机制对所述基于语义对齐的全局图像特征和所述使用文本表述的区域图像描述分别进行引导,分别得到根据问题引导的基于语义对齐的全局图像特征和根据问题引导的使用文本表述的区域图像描述;
对所述根据问题引导的基于语义对齐的全局图像特征、所述根据问题引导的使用文本表述的区域图像描述、以及所述融合对话历史的当前轮问题的特征进行融合,得到最终的上下文向量;
使用LSTM模型构建所述生成式解码器,所述生成式解码器用于根据所述最终的上下文向量,生成回复。
2.根据权利要求1所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述编码器采用co-attention机制,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,得到基于语义对齐的全局图像特征,包括:
通过将所述给定图像的区域视觉特征Iv和从所述给定图像提取的文本单词构成的词向量Iw连接,计算相似度矩阵S,相似度矩阵S符合以下公式:
S=IvM(Iw)T
其中,是可训练的参数矩阵,s中的元素Si,j表示第i个所述给定图像的区域视觉特征和第j个所述给定图像提取的文本单词的词向量的相似度;
通过column-wise的归一化,对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐,按照以下公式生成文本-图像的注意力权重Awv:
Avw=softmax(ST)
其中,softmax(.)表示column-wise的归一化函数;
按照以下公式,得到基于语义对齐的全局图像特征
3.根据权利要求1所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述编码器通过第一LSTM模型提取当前轮问题的特征,通过第二LSTM提取对话历史的特征,通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合,得到融合对话历史的当前轮问题的特征,包括:
其中[;]代表连接,⊙代表元素点乘,每个单词通过预训练的GloVe语言模型进行词嵌入,Qt代表第t轮对话的问题,表示第t轮对话的问题Qt经所述第一LSTM模型编码后得到的特征,表示第t轮对话的对话历史Ht经所述第二LSTM模型编码后得到的特征,其中,对话历史中的多个问答对进行拼接后送入所述第二LSTM模型中进行编码,是关于和的门控值的一个向量,代表所述融合对话历史的当前轮问题的特征。
4.根据权利要求3所述的一种基于语义对齐的视觉对话生成系统,其特征在于,所述根据问题引导的基于语义对齐的全局图像特征符合以下公式:
其中,Wq、Wv和均是可学习的参数,为所述基于语义对齐的全局图像特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010577719.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种天目琼花提取液作为铜绿微囊藻抑制剂的应用
- 下一篇:一种自动化铝棒生产线