[发明专利]基于数据处理的模型训练方法、装置、终端及存储介质有效

申请号：	201811364712.6	申请日：	2018-11-15
公开（公告）号：	CN109460463B	公开（公告）日：	2023-06-20
发明（设计）人：	毕野;黄博;吴振宇;王建明;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F18/214
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;熊永强
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于数据处理模型训练方法装置终端存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种基于数据处理的模型训练方法、装置、终端及存储介质，应用于数据处理技术领域。其中，方法包括：基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及初始模型的奖励函数；根据强化学习算法和第一训练数据集对初始模型进行第一强化训练，得到中间模型；基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据强化学习算法和第二训练数据集对中间模型进行第二强化训练，得到目标模型。本发明实施例可以使得训练得到的目标模型考虑回复的广度和深度，减少万能回复，从而可以提升回复的丰富度和前瞻性。

技术领域

本发明涉及数据处理技术领域，尤其涉及基于数据处理的模型训练方法、装置、终端及存储介质。

背景技术

人机交互(Human–Computer Interaction，HCI)是指人与计算机之间使用某种对话语言，以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如聊天机器人等。这些智能产品可以和用户进行聊天交流，并根据用户的问题生成相应的回答信息。但是，目前智能产品在和用户进行聊天的过程中，通常采用MLE(Maximum Likelihood Estimate，极大似然估计方法)模型的对话系统与用户进行多轮对话，实践表明，该MLE系统所产生的回复通常不考虑前瞻性，针对用户的问题，容易产生万能回复，从而使得整个聊天过程陷入死循环，用户的体验感较差。

发明内容

本发明实施例提供了一种基于数据处理的模型训练方法、装置、终端及计算机可读存储介质，可以使得训练得到的目标模型考虑回复的广度和深度，减少万能回复，从而可以提升回复的丰富度和前瞻性。

一方面，本发明实施例提供了一种基于数据处理的模型训练方法，该基于数据处理的模型训练方法包括：

基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据所述第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及所述初始模型的奖励函数，其中，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定所述初始模型的训练方向；

根据强化学习算法和所述第一训练数据集对所述初始模型进行第一强化训练，得到中间模型，其中，所述第一强化训练中的奖励函数采用所述初始模型的奖励函数；

基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据所述强化学习算法和所述第二训练数据集对所述中间模型进行第二强化训练，得到目标模型，其中，所述第二强化训练中的奖励函数定义为1。

另一方面，本发明实施例提供了一种基于数据处理的模型训练装置，该基于数据处理的模型训练装置包括：

训练单元，用于基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据所述第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及所述初始模型的奖励函数，其中，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定所述初始模型的训练方向；

强化单元，用于根据强化学习算法和所述第一训练数据集对所述初始模型进行第一强化训练，得到中间模型，其中，所述第一强化训练中的奖励函数采用所述初始模型的奖励函数；

所述强化单元，用于基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据所述强化学习算法和所述第二训练数据集对所述中间模型进行第二强化训练，得到目标模型，其中，所述第二强化训练中的奖励函数定义为1。

再一方面，本发明实施例提供了一种终端，该终端包括输入设备、输出设备、存储器以及处理器，所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811364712.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种中文相似问题生成系统与方法
下一篇：知识挖掘方法、装置、电子设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于数据处理的模型训练方法、装置、终端及存储介质有效

专利文献下载