[发明专利]一种文本自动生成方法有效
申请号: | 201910243895.4 | 申请日: | 2019-03-28 |
公开(公告)号: | CN110619118B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 于洪涛;曲强;丁悦航;黄瑞阳;李邵梅;高超;李子勇 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F16/35;G06F16/33;G06K9/62 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 陈勇 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 自动 生成 方法 | ||
1.一种文本自动生成方法,其特征在于,包括:
步骤1、利用预训练好的自编码器得到待处理真实文本的隐藏空间向量;所述自编码器包括:编码器与解码器;相应地,所述自编码器的预训练过程包括:
步骤a1、利用编码器将真实数据集中的训练用真实文本映射到隐藏空间中得到隐藏向量;
步骤a2、利用解码器将编码器得到的隐藏向量映射到训练用真实文本;
步骤a3、将输入至编码器的训练用真实文本与解码器恢复的训练用真实文本进行一致性保持,得到真实数据集的隐藏空间BM;
步骤2、利用训练好的生成网络生成所述隐藏空间向量的合成文本;所述生成网络的训练过程包括:
步骤b1、随机初始化生成网络的参数θ和判别网络的参数φ;
步骤b2、从真实数据集随机抽取一训练用真实文本,利用预训练好的自编码器得到训练用真实文本的隐藏空间向量;
步骤b3、根据训练用真实文本的隐藏空间向量,利用生成网络生成训练用真实文本的合成文本;所述生成网络生成合成文本的过程具体为:
步骤b3.1、分别按照式(1)和式(2)生成隐藏空间向量z的第一个单词y1和第t个单词yt:
其中,z∈Rd,d表示噪声向量的维度;C,V表示参数矩阵;w1表示第一个单词的单词概率分布向量;h1表示第一个单词的隐藏向量;p(w1|z)表示;We∈Rm×k表示单词的嵌入矩阵,m表示真实文本数据中的单词数目,k表示真实文本数据中单词的维度;it,ft,ot,ct,ht分别表示第t个单词的输入门向量、遗忘门向量、输出门向量、记忆门向量、修正记忆门向量和隐藏向量;wt表示第t个单词的词概率分布向量;σ(·)表示sigmoid函数,⊙表示点乘;W{i,f,o,c},U{i,f,o,c},C{i,f,o,c},b{i,f,o,c}表示偏置;t≥2;
步骤b3.2、按照式(3)生成合成文本
其中,G(·)表示生成网络;T表示合成文本的单词数目,⊕表示拼接操作;
步骤b4、从真实数据集再次随机抽取一训练用真实文本,将再次抽取的训练用真实文本和步骤b3中的合成文本输入到判别网络进行文本分类;
步骤b5、将判别网络的分类结果作为奖励值,依次更新判别网络与生成网络的模型参数;
步骤b6、重复步骤b2至步骤b5,直至生成网络与判别网络收敛,即得到训练好的生成网络。
2.根据权利要求1所述的方法,其特征在于,步骤b4中,所述判别网络进行文本分类的过程具体为:
步骤b4.1、在卷积层,每个句子的第i个单词的位置的输出为ci:
其中,ξ表示输入至判别网络的训练用真实文本和合成文本,ξ∈RT×k;w∈Rl×k表示窗口大小为l的卷积核,表示点乘后进行加和操作,b表示偏置,ρ表示Relu函数;
步骤b4.2、在池化层,采用最大池化策略,经过池化后的输出为
步骤b4.3、在分类层,采用基于softmax函数的方法进行分类,即yc=softmax(W(p)c+b(p))。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910243895.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:关键词提取方法和装置
- 下一篇:文本智能编辑方法、装置及计算机可读存储介质