[发明专利]基于类标序列生成式对抗模型的文本自动生成方法在审
申请号: | 202010065680.0 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111259650A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 陈晋音;张敦杰;王雪柯;吴洋洋 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F16/33;G06F16/35 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 序列 生成 对抗 模型 文本 自动 方法 | ||
1.一种基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,包括步骤:
基于生成式对抗模型构建文本生成器;
利用所述文本生成器生成基于真实文本的生成文本;
调整所述生成文本的文本长度;
对调整过文本长度的生成文本进行关键词替换,获得最终生成文本。
2.如权利要求1所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,所述文本生成器的构建过程包括:
以LSeqGAN模型作为文本生成器的构建系统,LSeqGAN由生成器G和判别器D,其中,生成器G用于根据输入的真实文本输出指定类型的生成文本;判别器D用于判别真实文本和生成文本的真假;
以公式(1)作为优化目标,对LSeqGAN模型进行迭代优化,直到收敛,提取收敛时生成器G和对应的网络参数作为文本生成器;
其中,s表示当前的生成文本序列,总长度设定为t,序列结束也用0填满至长度t,label表示生成文本序列的原始类标,a=yt表示下一个生成的文本序列,表示到T时刻为止,由Gβ生成的序列,表示在原始类标label下,预测为真实类标的概率;表示在类标label下,N次带roll-out策略的Gβ次的蒙特卡洛搜索。
3.如权利要求2所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,所述生成器G包括长短期记忆网络和softmax激活层,其中,长短期记忆网络用于根据输入的真实文本产生生成文本,所述softmax激活层用于根据所述生成文本产生指定类型的生成文本。
4.如权利要求2所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,所述真实文本在输入至生成器G之前,需要对真实文本进行编码成文本矩阵,并用零补添所述文本矩阵到固定长度。
5.如权利要求2所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,所述判别器D包括特征提取单元和softmax激活层,其中,所述特征提取单元用于提取输入的真实文本和生成文本的特征,所述softmax激活层用于对提取的特征进行激活映射,输出真实文本和生成文本的预测标签。
6.如权利要求1所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,所述调整所述生成文本的文本长度包括:
检测所述生成文本中的零,删除零之后的文本序列,以调整生成文本的文本长度。
7.如权利要求1所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,所述对调整过文本长度的生成文本进行关键词替换包括:
选定关键词,并从数据集中选择与关键词相似度高的一组词汇作为替换词;
根据关键词在所述生成文本中选择与关键词相似度高的一组词汇作为被替换词;
从替换词中抽样替换生成文本中的被替换词,以获得最终生成文本。
8.如权利要求7所述的基于类标序列生成式对抗模型的文本自动生成方法,其特征在于,通过WordNet计算词汇相似度,并利用给定的相似阈值筛选词汇相似度较高的一组作为替换词和/或被替换词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010065680.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动船舶废气排放溯源装置及方法
- 下一篇:一种土地价值评估方法及系统