[发明专利]一种基于Performer结构的GPT2文本自动生成方法有效
申请号: | 202110570781.8 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113051897B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 曾曦;饶志宏;谢瑞云;罗殊彦;肖杰;王效武;马军;王海兮;曾华圣;常明芳;蒋涛 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 徐静 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 performer 结构 gpt2 文本 自动 生成 方法 | ||
1.一种基于Performer结构的GPT2文本自动生成方法,其特征在于,包括如下步骤:
步骤一,读取语料集合中的样本文本S并转化为向量IDS;
步骤二,对于输入的语料集合基于步骤一的方法生成字向量矩阵V;
步骤三,构建注意力矩阵A;
步骤四,根据所述字向量矩阵V和注意力矩阵A计算样本矩阵P;
步骤五,将所述样本矩阵P作为输入,进行多层Performer编码计算后得到矩阵PX;
步骤六,基于步骤五的方法构建文本生成模型M;
步骤七,利用所述文本生成模型M自动生成文本;
步骤一中所述读取语料集合中的样本文本S并转化为向量IDS的方法为:
读取语料集合中的一条样本文本S,该样本文本S包含N个字符,则有S={S1,S2,…,SN};
利用Token函数将所述样本文本S转化为N×1的向量IDS,该IDS={ID1,ID2,…,IDN};
步骤二中所述对于输入的语料集合基于步骤一的方法生成字向量矩阵V的方法为:
利用字嵌入算法Embedding,将输入的语料集合中每一个样本文本S基于步骤一的方法转化为向量IDS;
再通过查询字典表的方式,得到一个N×d的字向量矩阵V;其中,d表示字向量矩阵V的维数;
步骤三中所述构建注意力矩阵A的方法为:注意力矩阵A近似分解为查询矩阵Q′=N×m和键值矩阵K′=m×N;初始查询矩阵Q′和键值矩阵K′的所有值随机生成,从而得到线性的注意力矩阵A;
步骤四中所述根据所述字向量矩阵V和注意力矩阵A计算样本矩阵P的方法为:P=A×V=Q′×K′×V;
步骤五中所述将所述样本矩阵P作为输入,进行多层Performer编码计算后得到矩阵PX的方法为:将样本矩阵P作为输入,导入第一层神经网络中进行计算,得到Performer结构的一次训练矩阵P1;然后经过X次迭代,最终得到矩阵PX=N×D,其中,D为字典矩阵;
步骤六中所述基于步骤五的方法构建文本生成模型M的方法为:利用自回归机制,通过反向传播计算,逐层修改各层注意力矩阵A中的参数,即查询矩阵Q′和键值矩阵K′,然后基于步骤五的方法,通过对样本矩阵P的不断迭代训练,完成文本生成模型M的构建;
步骤七中利用所述文本生成模型M自动生成文本的方法为:向所述文本生成模型M任意输入一个文本T1,经过文本生成模型M计算后,利用Linear函数与Softmax函数得到该文本T1的字典向量表R中所有字的概率,从该字典向量表R中取k个字作为备选字集合Topk,Topk={T11,T12,…,T1k};将备选字集合Topk再输入文本生成模型M得到新的备选字集合Topk′,如此循环C次后生成文本Tc,其中,C取值范围为10~250次。
2.根据权利要求1所述的基于Performer结构的GPT2文本自动生成方法,其特征在于,还包括:
步骤八,对生成的文本进行完整性校验。
3.根据权利要求2所述的基于Performer结构的GPT2文本自动生成方法,其特征在于,步骤八中所述对生成的文本进行完整性校验的方法为:利用包括结束符、标点符和表情符的特殊标识作为判断依据,通过文本优化函数Topt()对生成的文本TC进行裁剪,使该生成的文本TC保持语句的完整性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110570781.8/1.html,转载请声明来源钻瓜专利网。