[发明专利]一种文本生成方法、装置、电子设备及存储介质有效
申请号: | 202010865407.6 | 申请日: | 2020-08-25 |
公开(公告)号: | CN112163404B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 孙海峰;熊永平;尚学军;戚艳;谈元鹏 | 申请(专利权)人: | 北京邮电大学;国网天津市电力公司;国家电网有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/216;G06F40/247;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 王刚 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 生成 方法 装置 电子设备 存储 介质 | ||
1.一种文本生成方法,其特征在于,包括:
获取若干关键词,将若干所述关键词输入预先训练的粗粒度文本生成模型,得到若干所述关键词对应的所述粗粒度文本;
确定未出现在粗粒度文本中的至少一个所述关键词,作为遗漏关键词;
根据所述粗粒度文本和至少一个所述遗漏关键词,得到若干第一重构文本;具体包括:根据所述粗粒度文本,确定若干插入位置;
将至少一个所述遗漏关键词分别插入每个所述插入位置,以得到若干所述第一重构文本;
对于每个所述第一重构文本均执行改写处理,以得到若干第二重构文本;具体包括:对每个所述第一重构文本均执行插入操作或删除操作;其中,
所述插入操作,包括:随机选取所述第一重构文本的插入位置,根据条件概率公式在所有备选词汇中抽取一个概率最大的词,插入到所述位置,以得到一个所述第二重构文本;
所述删除操作,包括:对生成的每一个所述第一重构文本执行随机采样删除,以得到一个所述第二重构文本;
将若干所述第二重构文本输入预先训练的评估模型,得到若干所述第二重构文本分别对应的合理性数值,并将合理性数值最高的所述第二重构文本作为与所述遗漏关键词对应的细粒度文本;其中,所有所述遗漏关键词按照先后顺序同时出现的概率,称为所述合理性数值,所述概率越高,所述合理性数值越高。
2.根据权利要求1所述的文本生成方法,其特征在于,所述遗漏关键词的个数为M,所述粗粒度文本的长度为N;
所述将至少一个所述遗漏关键词分别插入每个所述插入位置,以得到若干所述第一重构文本,具体包括:
将所述粗粒度文本的句首、句尾以及每两个词间的位置,确定为所述插入位置,以得到N+1个所述插入位置;
选择一个所述遗漏关键词分别添加到所有所述插入位置,得到N+1个添加结果;对于每个所述添加结果均执行确定所述插入位置,以及将另一所述遗漏关键词分别添加到所有所述插入位置的步骤;
重复执行上述步骤,直至全部所述遗漏关键词均添加到所述粗粒度文本中,并得到个第一重构文本,其中,i为序数。
3.根据权利要求1所述的文本生成方法,其特征在于,所述对生成的每一个所述第一重构文本执行随机采样删除,包括:
所述删除操作执行时不删除所述关键词所在位置的词。
4.根据权利要求1所述的文本生成方法,其特征在于,所述删除操作,还包括:
若执行所述删除操作后得到的所述第二重构文本,与已经得到的任一所述第二重构文本相同,则对所述第二重构文本重新执行所述删除操作。
5.一种文本生成装置,其特征在于,包括:
第一生成模块,被配置为获取若干关键词,将若干所述关键词输入预先训练的粗粒度文本生成模型,得到若干所述关键词对应的所述粗粒度文本;
确定模块,被配置为确定未出现在粗粒度文本中的至少一个所述关键词,作为遗漏关键词;
第二生成模块,被配置为根据所述粗粒度文本和至少一个所述遗漏关键词,得到若干第一重构文本;具体包括:根据所述粗粒度文本,确定若干插入位置;
将至少一个所述遗漏关键词分别插入每个所述插入位置,以得到若干所述第一重构文本;
第三生成模块,被配置为对于每个所述第一重构文本均执行改写处理,以得到若干第二重构文本;具体包括:对每个所述第一重构文本均执行插入操作或删除操作;其中,
所述插入操作,包括:随机选取所述第一重构文本的插入位置,根据条件概率公式在所有备选词汇中抽取一个概率最大的词,插入到所述位置,以得到一个所述第二重构文本;
所述删除操作,包括:对生成的每一个所述第一重构文本执行随机采样位置执行删除,以得到一个所述第二重构文本;
第四生成模块,被配置为将若干所述第二重构文本输入预先训练的评估模型,得到若干所述第二重构文本分别对应的合理性数值,并将合理性数值最高的所述第二重构文本作为与所述关键词对应的细粒度文本。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任意一项所述的方法。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至4任一所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;国网天津市电力公司;国家电网有限公司,未经北京邮电大学;国网天津市电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010865407.6/1.html,转载请声明来源钻瓜专利网。