[发明专利]基于文本编辑技术的文本生成模型的训练方法及装置在审
申请号: | 202011139506.2 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112257456A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 孙超;王健宗;吴天博;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/237;G06F16/33;G06K9/62 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本编辑 技术 文本 生成 模型 训练 方法 装置 | ||
1.一种基于文本编辑技术的文本生成模型的训练方法,其特征在于,包括以下步骤:
获取预设的源文本集;
根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集;
根据所述源文本集、所述目标文本集构建词汇表;
根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列;
将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列;
根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。
2.根据权利要求1所述的基于文本编辑技术的文本生成模型的训练方法,其特征在于,所述根据所述源文本集、所述目标文本集构建所述词汇表,包括:
根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列;
根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表。
3.根据权利要求2所述的基于文本编辑技术的文本生成模型的训练方法,其特征在于,所述根据所述每一源文本、所述每一源文本的目标文本构建所述每一源文本和所述每一源文本的目标文本的最长公共子序列,包括:
获取所述每一源文本的子序列集合以及所述每一源文本的目标文本的子序列集合;
将所述每一源文本的子序列集合中的每一子序列分别与所述目标文本的子序列集合中的每一子序列进行匹配以得到所述每一源文本与所述每一源文本的目标文本的公共子序列集合并将所述公共子序列集合中的最长公共子序列作为所述最长公共子序列。
4.根据权利要求2所述的基于文本编辑技术的文本生成模型的训练方法,其特征在于,所述根据所述每一源文本的目标文本、所述最长公共子序列构建所述词汇表,包括:
将所述每一源文本的目标文本进行分词处理以得到所述每一源文本的目标文本的词语;
将所述每一源文本的目标文本的词语与所述最长公共子序列进行匹配以从所述每一源文本的目标文本的词语中获取构成所述词汇表的词语。
5.根据权利要求2所述的基于文本编辑技术的文本生成模型的训练方法,其特征在于,所述根据预设的词汇表、所述每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列,包括:
根据所述最长公共子序列对所述每一源文本进行标注以得到标注后的每一源文本;
将所述标注后的每一源文本进行分词处理以得到所述标注后的每一源文本的字符集合;
将所述词汇表中的词语分别与所述字符集合中的字符进行匹配以得到词语集合;
将所述词语集合中的词语进行拼接以得到所述第一标签序列。
6.根据权利要求5所述的基于文本编辑技术的文本生成模型的训练方法,其特征在于,所述将所述词语集合中的词语进行拼接以得到所述第一标签序列,包括:
将所述词语集合中的词语以所述标注后的每一源文本中字符的排列顺序进行拼接以得到所述第一标签序列。
7.根据权利要求1所述的基于文本编辑技术的文本生成模型的训练方法,其特征在于,所述根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整,包括:
获取所述第二标签序列与所述第一标签序列的相似度;
若所述相似度低于预设的阈值,根据所述相似度对所述文本生成模型的配置参数进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011139506.2/1.html,转载请声明来源钻瓜专利网。