[发明专利]一种同义句生成方法、系统、终端及存储介质有效
申请号: | 202011555183.5 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112287641B | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 姜华;陈文清;田济东 | 申请(专利权)人: | 上海旻浦科技有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/211;G06F40/253;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银 |
地址: | 201203 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义 生成 方法 系统 终端 存储 介质 | ||
1.一种同义句生成方法,其特征在于,包括:
S100,构建同义句生成基础模型;
S200,利用所述同义句生成基础模型,对待转换的句子及其所有训练语料中的句子进行自编码,获得语义向量和语法向量;
对所述语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中;
对所述语义向量和变分推断后的语法向量进行解耦;
S300,利用所述同义句生成基础模型,采用解耦后的所述语义向量和变分推断后的语法向量,对训练语料中的句子进行重构,更新训练语料;利用更新后的训练语料,重新执行S200,对向量解耦进行优化;
S400,在完成对向量解耦过程优化的基础上,基于解耦后的语义向量和变分推断后的语法向量,采用源文本的语义向量拼接变分推断后的语法向量生成同义句;
所述同义句生成基础模型采用变分自编码器构建;所述变分自编码器包括两个编码器和一个解码器,其中,
一个所述编码器获得语义向量的语义向量提取模型,用于语义向量提取自编码;
另一个所述编码器获得语法向量的语法向量提取模型,用于语法向量提取自编码;
所述解码器用于对训练语料中的句子进行重构。
2.根据权利要求1所述的同义句生成方法,其特征在于,所述语义向量提取模型基于预训练语言模型构建得到,所述语法向量提取模型基于长短时记忆网络构建得到;所述解码器采用基于长短时记忆网络的解码模型。
3.根据权利要求2所述的同义句生成方法,其特征在于,所述语义向量提取模型基于预训练语言模型构建得到,包括:
采用海量文本对预训练语言模型进行学习,使该模型具备语义提取的能力;
随着所述预训练语言模型在学习过程中网络层数的加深,进而构成语义向量提取模型。
4.根据权利要求3所述的同义句生成方法,其特征在于,所述语义向量提取模型,提取语义向量的方法包括:
采用预训练语言模型,对得到的每个词进行分词;
采用预训练语言模型,对所有分词进行编码,对预训练语言模型的最后一层编码取平均池化操作,获得每个句子的语义向量。
5.根据权利要求1所述的同义句生成方法,其特征在于,对所述语法向量进行变分推断得到变分推断后的语法向量,并使变分推断后的语法向量服从于一个预先定义的分布中,包括:
设预先定义的分布为正态分布,变分推断采用重参数化的方法,通过两个全连接神经网络将语法向量映射到正态分布的均值和方差,则变分推断后的语法向量为:
其中,服从于一个标准正态分布,⊙为点乘操作;
变分推断后,语法向量则服从于分布,为了使得分布接近于正态分布,将变分推断最小化KL散度:
。
6.根据权利要求1所述的同义句生成方法,其特征在于,对所述语义向量和变分推断后的语法向量进行解耦,采用对抗学习实现,包括:
构建两个判别器,分别为语法向量至语义判别器和语义向量至语法判别器;判别器的优化目标为使语法向量至语义判别器能够成功预测出语义向量,同时使语义向量至语法判别器能够成功预测出语法向量;
将变分自编码器作为生成器,与两个判别器进行对抗学习,生成器的优化目标为使得语法向量至语义判别器无法预测出语义向量,同时使得语义向量至语法判别器无法预测出语法向量;
生成器和判别器交替训练直至达到纳什均衡,此时生成的语义向量和语法向量成功解耦。
7.根据权利要求6所述的同义句生成方法,其特征在于,两个所述判别器最大化似然概率为:
将语义向量提取模型和语法向量提取模型与两个所述判别器进行对抗学习,优化目标为最小化概率分布:
其中,为变分推断后的语法向量,为语义向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海旻浦科技有限公司,未经上海旻浦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011555183.5/1.html,转载请声明来源钻瓜专利网。