[发明专利]一种基于标准化流的全并行化文本生成方法有效
申请号: | 201910967725.0 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110717313B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 蔡翔 | 申请(专利权)人: | 苏州意能通信息技术有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06N3/04;G06N3/08 |
代理公司: | 江苏昆成律师事务所 32281 | 代理人: | 刘尚轲 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标准化 并行 文本 生成 方法 | ||
1.一种基于标准化流的全并行文本生成方法,包括训练过程和应用过程,其特征在于,包括如下处理步骤:
训练过程:
S1,将标准答案输入编码器,编码器经过处理后输出中间隐层信息,中间隐层信息直接分别输入到标准化流模块和解码器中,标准化流模块在接收到中间隐层信息后会直接处理得到标准化流输出结果;
S2,将条件信息输入到条件信息模块,经过条件信息模块的处理后得到条件隐层信息,将条件隐层信息直接输入到解码器中,当解码器同时接收到条件隐层信息和中间隐层信息后,解码器对条件隐层信息和中间隐层信息进行注意力机制和非线性变换,然后得到解码器输出结果;
S3,将标准化流输出结果与高斯白噪声做损失函数计算,损失函数采用KL散度;将解码器输出结果与标准答案做损失函数计算,损失函数采用交叉熵;
S4,然后采用梯度下降法计算步骤S3中的两个损失函数的KL散度和交叉熵,这两个损失函数共同组成了变分自编码器的最低下界,使用梯度下降法将自分编码器的最低下界回传给标准化流模块和编码器,反向回传后会更新神经网络的参数;
S5,在下一次训练的过程中,编码器使用跟更新过的网络参数进行计算,然后生成调整后的中间隐层信息,并将调整后的中间隐层信息输送给标准化流模块和解码器,标准化流模块会使用更新过的参数进行计算,从而获得新的标准化流模块输出结果;解码器接收条件信息模块输入的条件隐层信息和调整后的中间隐层信息,进行运算后得到解码器输出结果;接着重复S3-S4的步骤;
S6,然后不断重复S5的步骤,直至当反向回传的KL散度和交叉熵在整个神经网络的最低下界低于某个固定阈值时,训练结束;
应用过程:
S7,将高斯白噪声输入到训练好的标准化流模块,得到标准化流输出信息,然后输送给解码器,解码器结合条件信息模块输入的条件隐层信息,对标准化流输出信息和条件隐层信息进行注意力机制和非线性变换,然后得到解码器输出结果。
2.如权利要求1所述的基于标准化流的全并行文本生成方法,其特征在于:所述的基于标准化流的全并行文本生成方法基于变分自编码器框架进行了扩展。
3.如权利要求1所述的基于标准化流的全并行文本生成方法,其特征在于:当标准答案输入编码器后,编码器内部的处理步骤依次包括词嵌入模型处理、多层长短时记忆模型和/或卷积层堆叠处理、和全连接非线性变换处理,最后输出中间隐层信息。
4.如权利要求1所述的基于标准化流的全并行文本生成方法,其特征在于:标准化流模块包括多项可逆变换。
5.如权利要求1所述的基于标准化流的全并行文本生成方法,其特征在于:在训练过程中,编码器输出的中间隐层信息输入到标准化流模块后,会依次经过掩膜自回归流模块、1X1可逆卷积模块和再仿射耦合层模块的处理,且以上三个模块依次循环8次后得到标准化流输出结果。
6.如权利要求1所述的基于标准化流的全并行文本生成方法,其特征在于:条件信息模块的处理步骤依次包括词嵌入模型处理、多层长短时记忆模型和/或卷积层堆叠处理、和全连接非线性变换处理,最终得到条件隐层信息。
7.如权利要求1所述的基于标准化流的全并行文本生成方法,其特征在于:在测试过程中,高斯白噪声的样本个数决定了文本的长度,有多少个高斯噪声样本点,就有多少个文字产生。
8.如权利要求1所述的基于标准化流的全并行文本生成方法,其特征在于:解码器输出的结果为产生文字序列的ID,而且每个文字在词库中都有唯一的ID,后续可以根据ID号找到对应文字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州意能通信息技术有限公司,未经苏州意能通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910967725.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本标注方法及装置
- 下一篇:一种文献著录格式转换方法