[发明专利]文本的生成方法、装置、设备以及存储介质在审
申请号: | 201911312452.2 | 申请日: | 2019-12-18 |
公开(公告)号: | CN112989764A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 朱元婧;佟津乐;谢海华 | 申请(专利权)人: | 北大方正集团有限公司;北大方正信息产业集团有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/205 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨俊辉;臧建明 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 方法 装置 设备 以及 存储 介质 | ||
本实施例提供一种文本的生成方法、装置、设备以及存储介质,通过对用户输入的初始语料,进行文本序列生成操作,得到第一文本序列,再将第一文本序列作为初始语料,重复本步骤直至进行文本序列生成操作的次数达到预设次数时停止本过程,得到多个第一文本序列,其中,文本序列生成操作包括文本修订操作和采样操作,文本修订操作包括替换、插入,删除中的至少一种,再按照匹配度由高到低的顺序,从多个第一文本序列中选择并输出预设数量的第二文本序列,由语言模型快速迭代生成大量的第一文本序列,再通过采样从第一文本序列中筛选文本质量较高的第二文本序列,提高了文本序列的数量和质量。
技术领域
本发明实施例涉及智能交互技术领域,尤其涉及一种文本的生成方法、装置、设备以及存储介质。
背景技术
文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。自动生成句子往往需要满足一些特定限制条件,包括强限制条件(句子中必须包含特定关键词等)和弱限制条件(生成的句子与某主题相关等)。
现有技术中,用于生成文本的文本生成模型一般借助循环神经网络(RecurrentNeural Network,RNN),即单向语言模型,从左到右生成句子,单向语言模型的效率较低,并且,单纯依赖语言模型生成文本缺乏灵活性,导致生成的文本较为单一且文本质量较低。
发明内容
本发明实施例提供一种文本的生成方法、装置、设备以及存储介质,用于解决上述方案中生成的文本数量不足且质量较低的问题。
第一方面,本发明提供一种文本的生成方法,包括:
对用户输入的初始语料,进行文本序列生成操作,得到第一文本序列,再将所述第一文本序列作为初始语料,重复本步骤直至进行所述文本序列生成操作的次数达到预设次数时停止本过程,得到多个第一文本序列;所述文本序列生成操作包括:文本修订操作和采样操作;所述文本修订操作包括:替换、插入,删除中的至少一种;
按照匹配度由高到低的顺序,从所述多个第一文本序列中选择预设数量的第二文本序列,并输出所述第二文本序列。
在一种具体的实现方式中,所述对用户输入的初始语料,进行文本序列生成操作,得到第一文本序列,包括:
对所述初始语料进行所述文本修订操作,得到待选文本序列;
对所述待选文本序列进行所述采样操作,确定所述待选文本序列是否满足采样条件;若是,则将所述待选文本序列作为第一文本序列;否则,重新对所述初始语料进行文本修订操作。
进一步地,在所述对所述初始语料进行所述文本修订操作,得到多个待选文本序列之前,所述方法还包括:
根据所述初始语料的字数,确定所述文本修订操作的类型;
若所述初始语料的字数小于预设的字数阈值,则确定所述文本修订操作的类型为插入操作;
若所述初始语料的字数大于或等于所述预设的字数阈值,则确定所述文本修订操作的类型为随机操作,所述随机操作为替换操作、插入操作和删除操作中随机选择的一种操作。
在一种具体的实现方式中,对所述待选文本序列进行所述采样操作,确定所述待选文本序列是否满足采样条件,包括:
通过采样算法,计算所述待选文本序列的接受概率;
在所述接受概率大于预设随机数时,确定所述待选文本序列满足采样条件;所述预设随机数的值介于0到1之间。
在一种具体的实现方式中,若所述文本修订操作为替换或者插入,则所述对所述初始语料进行所述文本修订操作,得到待选文本序列,包括:
通过双向语言模型,生成与所述初始语料相关的至少一个待选语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北大方正信息产业集团有限公司,未经北大方正集团有限公司;北大方正信息产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911312452.2/2.html,转载请声明来源钻瓜专利网。