[发明专利]模型训练方法及装置在审
申请号: | 202211177032.X | 申请日: | 2022-09-26 |
公开(公告)号: | CN115409172A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 桑成 | 申请(专利权)人: | 维沃移动通信有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张睿 |
地址: | 523863 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 | ||
本申请公开了一种模型训练方法及装置,属于人工智能技术领域。该方法包括:获取多组训练样本,所述训练样本包含N个训练子样本;将所述训练样本中的所述训练子样本输入预设生成对抗网络模型中的对抗生成器,输出摘要语义向量和扰动摘要语义向量;将所述摘要语义向量和扰动摘要语义向量输入所述预设生成对抗网络模型中的判别器,输出正样本数据和负样本数据;基于所述正样本数据中的扰动摘要语义向量,输出摘要信息样本;根据生成器损失、判别器损失和交叉熵损失调整所述预设生成对抗网络模型,直至所述预设生成对抗网络模型满足预设训练条件,得到摘要生成模型。
技术领域
本申请属于人工智能技术领域,具体涉及一种模型训练方法及装置。
背景技术
随着信息技术的不断发展,人们每天接收到的信息数量巨大,用户难以有效获取信息中的主要内容,而摘要能够帮助用户快速捕捉重要的内容,节省阅读成本。
因此如何有效的进行摘要生成已经成为业界亟待解决的问题。
发明内容
本申请实施例的目的是提供一种模型训练方法及装置,能够解决如何有效的进行摘要生成的问题。
第一方面,本申请实施例提供了一种模型训练方法,该方法包括:
获取多组训练样本,所述训练样本包含N个训练子样本,每个所述训练子样本包括:正文数据样本,所述正文数据样本对应的正文评论数据样本和摘要标签,所述N个训练子样本中的正文数据样本相同;
将所述训练样本中的所述训练子样本输入预设生成对抗网络模型中的对抗生成器,输出摘要语义向量和扰动摘要语义向量;
将所述N个训练子样本对应的摘要语义向量和扰动摘要语义向量输入所述预设生成对抗网络模型中的判别器,输出正样本数据和负样本数据,其中,所述正样本数据包括一个所述训练子样本生成的摘要语义向量和扰动摘要语义向量,所述负样本数据包括M个所述训练子样本生成的摘要语义向量和扰动摘要语义向量,N为正整数,M为大于2的正整数;
基于所述正样本数据中的扰动摘要语义向量,输出摘要信息样本;
根据生成器损失、判别器损失和交叉熵损失调整所述预设生成对抗网络模型,直至所述预设生成对抗网络模型满足预设训练条件,得到摘要生成模型;
其中,所述生成器损失是基于所述对抗生成器的生成器损失函数与所述摘要语义向量和扰动摘要语义向量确定的,所述判别器损失是基于所述判别器的判别器损失函数与所述正样本数据和负样本数据确定的,所述交叉熵损失是基于交叉熵损失函数与所述摘要信息样本和所述训练子样本的所述摘要标签确定的,所述摘要生成模型用于基于正文数据和所述正文数据对应的一个评论数据,输出摘要信息。
第二方面,本申请实施例提供了一种模型训练装置,包括:
获取模块,用于获取多组训练样本,所述训练样本包含N个训练子样本,每个所述训练子样本包括:正文数据样本,所述正文数据样本对应的正文评论数据样本和摘要标签,所述N个训练子样本中的正文数据样本相同;
第一输出模块,用于将所述训练样本中的所述训练子样本输入预设生成对抗网络模型中的对抗生成器,输出摘要语义向量和扰动摘要语义向量;
第二输出模块,用于将所述N个训练子样本对应的摘要语义向量和扰动摘要语义向量输入所述预设生成对抗网络模型中的判别器,输出正样本数据和负样本数据,其中,所述正样本数据包括一个所述训练子样本生成的摘要语义向量和扰动摘要语义向量,所述负样本数据包括M个所述训练子样本生成的摘要语义向量和扰动摘要语义向量,N为正整数,M为大于2的正整数;
第三输出模块,用于基于所述正样本数据中的扰动摘要语义向量,输出摘要信息样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于维沃移动通信有限公司,未经维沃移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211177032.X/2.html,转载请声明来源钻瓜专利网。