[发明专利]一种基于手绘图的故事性文本生成方法在审
申请号: | 202010014980.6 | 申请日: | 2020-01-07 |
公开(公告)号: | CN111243060A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 张文强 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06T11/60 | 分类号: | G06T11/60;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 叶敏华 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 绘图 故事性 文本 生成 方法 | ||
本发明涉及一种基于手绘图的故事性文本生成方法,包括步骤:1)获取手绘图图像特征;2)基于Transformer结构级联,根据手绘图图像特征捕获手绘图主体,并根据捕获的手绘图主体生成图像描述;3)利用图像描述生成叙事性小故事。与现有技术相比,本发明具有有效获取故事的主体要和手绘图的内容的关联性,且使用者可直接操控内容的生成,可加速模型训练等优点。
技术领域
本发明涉及机器视觉图像处理与自然语言处理交叉领域,尤其是涉及一种基于手绘图的故事性文本生成方法。
背景技术
图像生成描述是一个涉及计算机视觉、自然语言处理、机器学习的基础问题。可以看作将一幅图像翻译成一段合适的句子。句子必须要足够流畅而且能传递足够复杂的图像信息。对于计算机而言,它需要一个模型来理解图像的内容,然后将图像所包含的主体以及主体之间的联系转换成自然语言。
文本生成是自然语言处理中的一个重要研究领域。其中故事生成任务能够成为儿童益智机器人重要的一部分,具有广阔的应用前景。然而,目前市场上的儿童益智机器人还不成熟,其问题主要归结为机器人提供的功能容易使儿童感到厌倦,以及机器人和儿童的交互性不强。现有的文本生成模型都是采用端到端的编码-解码结构,端对端的优势是把数据预处理以及对输出结果的处理都交给模型,给模型较大的自由调整空间。经典的seq2seq模型进行文本生成的思路是通过深度神经网络模型将输入的序列映射为输出的序列。而目前文本生成任务也面临着训练数据有限的问题,现有技术还无法从无标注的数据中挖掘文本信息和规律,进而无法获取故事的主体要和手绘图的内容的关联性。通常编码器-解码器选用的模型是GRU或者LSTM,当需要翻译的句子变得越来越长,模型需要理解的信息量越来越大,编码器编译的定长的向量想要存储有效信息的难度越来越大。于是,传统的RNN模型就会出现长程梯度消失的问题,长序列到定长向量的转化会损失一定的信息。而对于大量的存储信息,如何加速模型的训练过程也是继续解决的问题。
目前基于神经网络的文本生成模型主要以靠数据驱动,容易生成丰富又流畅的文字描述,但是使用者不能直接操控内容的生成,难以控制生成内容的未来走向。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于手绘图的故事性文本生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于手绘图的故事性文本生成方法,包括如下步骤:
S1、获取手绘图图像特征。
优选地,采用深度卷积神经网络模型,基于谷歌Quick Draw数据集和ROCStories语料库匹配数据集作为训练数据,将手绘图x映射到向量z,获取手绘图图像特征,手绘图图像特征的表达式为:
z=CNN(x)={z0,z1,…,zl}
式中,l为图像特征的维度。
将向量z经过单层线性层用作分类任务,利用深度卷积神经网络模型对手绘图进行分类,各个类别的概率表达式为:
s=softmax(Waz+ba)
式中,Wa和ba为深度卷积神经网络中softmax层的参数。
然后获取用以衡量模型捕捉手绘图主体的精度分类任务的交叉熵损失,其表达式为:
式中,为标注中正确的分类结果,si为模型对手绘图给出的分类结果。
S2、基于Transformer结构级联,根据手绘图图像特征捕获手绘图主体,并根据捕获的手绘图主体生成图像描述。具体内容为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010014980.6/2.html,转载请声明来源钻瓜专利网。