[发明专利]一种文本生成方法和装置在审
申请号: | 202010010862.8 | 申请日: | 2020-01-06 |
公开(公告)号: | CN113076756A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 王刚;佘志东;张涛;张亮;饶正锋 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/289;G06F40/216 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李阳;郭晗 |
地址: | 100176 北京市北京经济技术*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 生成 方法 装置 | ||
1.一种文本生成方法,其特征在于,包括:
获取收集的原始文章语料中每篇文章样本的内容和元数据;
根据所述文章样本的内容生成对应所述文章样本的关键词序列和标签序列,并根据所述文章样本的元数据,按照预设规则生成对应所述文章样本的控制信号,根据对应所述文章样本的关键词序列、标签序列、控制信号生成训练样本,训练可控文本生成模型;
根据输入的目标元数据,按照所述预设规则生成目标控制信号,根据所述目标控制信号、输入的目标关键词序列,利用经过训练的所述可控文本生成模型,生成与所述目标关键词序列对应的文本。
2.根据权利要求1所述的方法,其特征在于,根据所述文章样本的内容生成对应所述文章样本的关键词序列的步骤,包括:
利用第一分词算法对所述文章样本的内容进行分词,得到分词序列;
从所述分词序列中抽取出属于预设词性的分词,并基于抽取出的分词,按照所述抽取出的分词在所述分词序列中的原有顺序,生成候选关键词序列;
将所述候选关键词序列中不符合预设条件的分词删除,得到所述关键词序列;
根据所述文章样本的内容生成对应所述文章样本的标签序列的步骤,包括:
利用第二分词算法对所述文章样本的内容进行分词,得到所述标签序列。
3.根据权利要求2所述的方法,其特征在于,所述将所述候选关键词序列中不符合预设条件的分词删除,包括:
基于所述原始文章语料统计所述候选关键词序列中各分词的词频,将所述候选关键词序列中所述词频小于预设阈值的分词,以及在预设黑名单中的分词删除。
4.根据权利要求1所述的方法,其特征在于,根据第一元数据,按照如下的所述预设规则生成第一控制信号:
在所述第一元数据为数值形式的情况下,以其数值作为所述第一控制信号;
在所述第一元数据为非数值形式的情况下,按照转换规则将其转换为有限数值区间内的离散数值,以作为所述第一控制信号;
其中,所述第一元数据为所述文章样本的元数据、所述第一控制信号为对应所述文章样本的控制信号,或者,所述第一元数据为所述目标元数据、所述第一控制信号为所述目标控制信号。
5.根据权利要求1所述的方法,其特征在于,所述文章样本的元数据和所述输入的目标元数据为作者、文章类目、文章类型、文章长度中的一种或多种,且所述文章样本的元数据和所述输入的目标元数据属于相同的一种或多种类型元数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标控制信号、输入的目标关键词序列,利用经过训练的所述可控文本生成模型,生成与所述目标关键词序列对应的文本,包括:
将所述目标关键词序列中各词的第一词向量和对应的第一位置向量相加后,通过所述可控文本生成模型的编码器编码,得到编码向量,其中,所述第一词向量通过对所述目标关键词序列的词做词嵌入处理得到,所述第一位置向量通过对所述目标关键词序列的词的位置信息进行位置编码得到;
通过所述可控文本生成模型的译码器中的每一步计算生成词汇的概率分布,并选择概率最大的词汇序列作为与所述目标关键词序列对应的文本,其中,根据特定标记词和当前已计算出的词汇得到目标序列,基于对所述目标序列各词的第二词向量与对应的第二位置向量相加所得到的向量、目标控制信号向量、所述编码向量,计算下一步生成词汇的概率分布,所述第二词向量通过对所述目标序列的词做词嵌入处理得到,第二位置向量通过对所述目标序列的词的位置信息进行位置编码得到,通过对所述目标控制信号做词嵌入处理得到所述目标控制信号向量。
7.根据权利要求6所述的方法,其特征在于,所述目标元数据为所述多种类型元数据,所述目标控制信号为相应的多种类型控制信号;
所述通过对所述目标控制信号做词嵌入处理得到所述目标控制信号向量,包括:
对所述目标控制信号的每种类型控制信号做词嵌入处理,得到对应所述每种类型控制信号的控制信号向量,将得到的各类型控制信号向量按照预设顺序拼接,得到所述目标控制信号向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010010862.8/1.html,转载请声明来源钻瓜专利网。