[发明专利]一种基于手绘图的故事性文本生成方法在审
申请号: | 202010014980.6 | 申请日: | 2020-01-07 |
公开(公告)号: | CN111243060A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 张文强 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06T11/60 | 分类号: | G06T11/60;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 叶敏华 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 绘图 故事性 文本 生成 方法 | ||
1.一种基于手绘图的故事性文本生成方法,其特征在于,包括下列步骤:
1)获取手绘图图像特征;
2)基于Transformer结构级联,根据手绘图图像特征捕获手绘图主体,并根据捕获的手绘图主体生成图像描述;
3)利用图像描述生成叙事性故事。
2.根据权利要求1所述的一种基于手绘图的故事性文本生成方法,其特征在于,步骤1)的具体内容为:
采用深度卷积神经网络模型,基于谷歌Quick Draw数据集和ROCStories语料库匹配数据集作为训练数据,将手绘图x映射到向量z,获取手绘图图像特征,并将向量z经过单层线性层用作分类任务,获取用以衡量模型捕捉手绘图主体的精度分类任务的交叉熵损失。
3.根据权利要求2所述的一种基于手绘图的故事性文本生成方法,其特征在于,手绘图图像特征的表达式为:
z=CNN(x)={zo,z1,...,zl}
式中,l为图像特征的维度;
将向量z经过单层线性层用作分类任务的主要内容为:
利用深度卷积神经网络模型对手绘图进行分类,各个类别的概率的表达式为:
s=softmax(Waz+ba)
式中,Wa和ba为深度卷积神经网络中softmax层的参数;
则分类任务的交叉熵损失函数的表达式为:
式中,为标注中正确的分类结果,si为模型对手绘图给出的分类结果。
4.根据权利要求2所述的一种基于手绘图的故事性文本生成方法,其特征在于,步骤2)具体包括以下步骤:
21)对于一幅手绘图,获取其相关描述生成句子,并将开始符号添加到句子开头,将句子长度扩充,随后将句子映射到词向量空间并且结合词的位置信息,获取输入向量;
22)采用六层的Transfomer结构级联,设定每一层Transfomer单元中多头注意力机制参数,利用训练数据对深度卷积神经网络模型进行训练,即利用多头注意力机制学习每一个位置的词与其上文每一个词之间的依赖关系,获取包括学习残差信息来提升神经网络的性能后的上下文信息在内的上下文信息;
23)采用步骤1)提取的图像特征z,将其做线性变换映射到多个词向量空间,获取一系列和图像主体相关的词,随后利用步骤22)的上下文信息,计算词的权重,利用多头的注意力机制学习多个权重,并将这些信息与上下文信息结合,获取深度卷积神经网络中FeedForward层的输入;
24)利用Feed Forward层对模型中每个位置的输入进行通道重组,获取手绘图对应描述中每一个位置的词的概率分布;
25)利用词的概率分布与手绘图的匹配描述计算交叉熵损失,结合步骤1)中的分类损失函数,获取最终损失函数,对模型进行优化;
26)当步骤25)的最终损失函数收敛不再减小,利用词的概率分布生成手绘图的描述。
5.根据权利要求4所述的一种基于手绘图的故事性文本生成方法,其特征在于,步骤22)中,将每层Transfomer单元中多头注意力机制头数设置为8,注意力机制中查询、键和值的维度大小设置为32,在深度卷积神经网络模型训练过程中,将dropout值设置为0.2,并采用beta1为0.9,beta2为0.98,epsilon为10-9的Adam优化器对模型进行优化。
6.根据权利要求4所述的一种基于手绘图的故事性文本生成方法,其特征在于,步骤22)中,学习残差信息来提升神经网络的性能后的上下文信息在内的上下文信息的表达式为:
ot=LayerNorm(ct+ht)
式中,ct为对已经产生的句子进行编码生成的向量,ht为采用多头注意力机制捕捉到的多组当前词与之前词的上下文信息,LayerNorm表示将文本在通道方向上进行归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010014980.6/1.html,转载请声明来源钻瓜专利网。