[发明专利]基于文本编辑技术的文本生成模型的训练方法及装置在审
申请号: | 202011139506.2 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112257456A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 孙超;王健宗;吴天博;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/237;G06F16/33;G06K9/62 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本编辑 技术 文本 生成 模型 训练 方法 装置 | ||
本发明公开了一种基于文本编辑技术的文本生成模型的训练方法及装置,该方法包括:获取预设的源文本集;根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集;根据所述源文本集、所述目标文本集构建词汇表;根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列;将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列;根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。本发明基于机器学习技术领域,通过该方法对文本生成模型进行训练,不仅极大的提升了文本生成模型的训练效率,而且提高了文本生成模型生成高语义的文本准确率。
技术领域
本发明属于人工智能技术领域,尤其涉及一种基于文本编辑技术的文本生成模型的训练方法及装置。
背景技术
文本生成是自然语言处理领域一项重要的任务,也是人工智能面临的一个重大挑战。虽然文本生成可以辅助专业人员进行专业写作,例如法律文书补全、自动生成新闻、生成文本摘要、文本复述等,但是文本生成模型的训练需依赖于大量的数据,尤其在特定领域的高质量的文本数据却比较匮乏,造成文本生成模型生成的高语义文本的准确度不高。
发明内容
本发明实施例提供了一种基于文本编辑技术的文本生成模型的训练方法及装置,解决了现有技术中文本生成模型需要大量高质量的文本数据进行训练才能准确获取高语义文本的问题。
第一方面,本发明实施例提供了一种基于文本编辑技术的文本生成模型的训练方法,其包括:
获取预设的源文本集;
根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集;
根据所述源文本集、所述目标文本集构建词汇表;
根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列;
将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列;
根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。
第二方面,本发明实施例提供了一种基于文本编辑技术的文本生成模型的训练装置,其包括:
第一获取单元,用于获取预设的源文本集;
编辑单元,用于根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集;
第一构建单元,用于根据所述源文本集、所述目标文本集构建词汇表;
处理单元,用于根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列;
输入单元,用于将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列;
第一调整单元,用于根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。
第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于文本编辑技术的文本生成模型的训练方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于文本编辑技术的文本生成模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011139506.2/2.html,转载请声明来源钻瓜专利网。