[发明专利]一种逐步文本生成方法、系统、计算机设备及存储介质有效
申请号: | 202310021779.4 | 申请日: | 2023-01-06 |
公开(公告)号: | CN115879450B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 朱琳 | 申请(专利权)人: | 广东爱因智能科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06F40/30 |
代理公司: | 广州鲁粤专利代理事务所(普通合伙) 44887 | 代理人: | 沈菁 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 逐步 文本 生成 方法 系统 计算机 设备 存储 介质 | ||
1.一种逐步文本生成方法,其特征在于,包括:
获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;
通过训练好的序列标注模型构建当前语料对应的文本描述短句;
将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本;
其中,预测模型的encoder和decoder都使用transformer的结构,额外引入一个memory机制,训练过程采用teacher-forcing的策略;根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,还包括:基于规则引擎对输入的多个卖点信息进行文本的检索,检索出卖点信息对应的文本描述短句;基于规则引擎完成句式模板的规划,确定逐步推理时每一步生成的文本描述短句所关联的卖点信息,并在所述文本描述短句非首句的位置随机插入[s]提示符,得到输入数据;输入数据输入训练好的预测模型进行逐步推理,得到目标输出文本。
2.根据权利要求1所述的逐步文本生成方法,其特征在于,从所述原始语料中抽取包含卖点信息的描述短句,包括:
采用无监督算法抽取所述原始语料中的关键词;
基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
3.根据权利要求2所述的逐步文本生成方法,其特征在于,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型,还包括:
通过训练好的序列标注模型离线挖掘所述描述短句的短句模板,并与所述卖点信息建立关联关系。
4.根据权利要求3所述的逐步文本生成方法,其特征在于,通过训练好的序列标注模型构建当前语料对应的文本描述短句时,所述当前语料中包含建立有卖点信息关联关系的平行卖点数据。
5.根据权利要求1所述的逐步文本生成方法,其特征在于,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,包括:
基于训练好的序列标注模型抽取文本描述短句;
在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;
构建生成预测模型的输入数据。
6.一种逐步文本生成系统,其特征在于,包括:
短句挖掘模块,用于从获取的原始语料中抽取包含卖点信息的描述短句用以训练序列标注模型;
短句构建模块,用于通过训练好的序列标注模型构建当前语料对应的文本描述短句;
输入数据构造模块,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
逐步文本生成模块,用于根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本;
其中,预测模型的encoder和decoder都使用transformer的结构,额外引入一个memory机制,训练过程采用teacher-forcing的策略;根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,还包括:基于规则引擎对输入的多个卖点信息进行文本的检索,检索出卖点信息对应的文本描述短句;基于规则引擎完成句式模板的规划,确定逐步推理时每一步生成的文本描述短句所关联的卖点信息,并在所述文本描述短句非首句的位置随机插入[s]提示符,得到输入数据;输入数据输入训练好的预测模型进行逐步推理,得到目标输出文本。
7.根据权利要求6所述的逐步文本生成系统,其特征在于,还包括:
关键词抽取模块,用于基于无监督算法抽取所述原始语料中的关键词;
卖点信息挖掘模块,用于基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东爱因智能科技有限公司,未经广东爱因智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310021779.4/1.html,转载请声明来源钻瓜专利网。