[发明专利]多轮对话方法、系统、介质及装置有效
申请号: | 202110049695.2 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112800192B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 杨球松;苏磊 | 申请(专利权)人: | 云从科技集团股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N20/00;G10L15/26;G10L13/08 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库;郭婷 |
地址: | 511457 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 轮对 方法 系统 介质 装置 | ||
1.一种多轮对话的决策模型训练方法,其特征在于,包括:
根据N次对话中第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话;
为所述第m次对话中所形成的t轮对话中的每一轮对话计算一单轮奖励值,具体包括:根据每一轮对话所处的轮数,以线性递减方式给予一个负奖励值;根据在所述每一轮对话后所述任务目标中的信息槽内填入的正确的目标槽值的数量计算一个正奖励值;将所述负奖励值与正奖励值累加获得所述每一轮对话的所述奖励值rt;其中,对应的轮数越大,给予的所述负奖励值越小;其中,所述正确的目标槽值的数量越多,计算的所述正奖励值越大;并在所述第m次对话结束时给予所述第m次对话一单次奖励值,具体包括:统计结束时所述任务目标中的信息槽内正确的目标槽值数量;根据所述正确的目标槽值数量,确定所述第m次对话的单次奖励值;
根据N次对话中每一次对话的单次奖励值、所述每一次对话中所有轮对话的单轮奖励值和强化学习算法对所述决策模型进行N次训练并更新所述决策模型;
其中,t、m、N为大于等于1的自然数。
2.如权利要求1所述的方法,其特征在于,所述“根据N次对话中第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话”之前包括:
构建第m次对话的任务目标以确定生成模拟行为的规则或模型;
根据存储的历史对话状态,为接收的任一结构化数据,进行当前对话状态预测;
通过所述决策模型,为所述当前对话状态,进行所述系统行为预测;
其中,接收的任一结构化数据为任何一轮对话中的所述系统行为或所述模拟行为;
所述“根据N次对话中第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话”具体包括:
根据所述任务目标确定的所述规则或所述模型、结合历史对话状态以及一所述系统行为,生成对应的一模拟用户回应所述系统行为的当前对话行为,作为所述模拟行为,以完成一轮交互对话;
并且,根据历史对话状态,为所述当前对话行为,进行新的当前对话状态预测;
将完成的一轮交互对话中的所述系统行为记为at、所述当前对话状态记为st、新的所述当前对话状态记为st+1、计算的所述单轮奖励值记为rt;以及,
将单轮对话状态元组记为(st,at,rt,st+1),并加入到单次对话状态列表中。
3.如权利要求1所述的方法,其特征在于,
所述“根据N次对话中第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话”之后还包括:
判断所述第m次对话是否结束;
如果是,则结束所述第m次对话。
4.如权利要求3所述的方法,其特征在于,判断所述第m次对话是否结束具体包括:
判断所述第m次对话的所述任务目标中的信息槽是否已经全部被填满,或者,判断所述第m次对话中的多轮对话的轮数达到阈值M,其中,M为大于等于1的自然数。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述“根据N次对话中每一次对话的单次奖励值、所述每一次中所有轮对话的单轮奖励值和强化学习算法对所述决策模型进行N次训练并更新所述决策模型”具体包括:
当进行了N次对话后,通过所述强化学习算法,以每一次对话中所有轮对话的单轮奖励值与所述每一次对话的单次奖励值的累加和的最大化作为优化目标,对所述决策模型进行训练;
对N次对话的数据训练完后,更新所述决策模型的参数获得更新后的决策模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云从科技集团股份有限公司,未经云从科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110049695.2/1.html,转载请声明来源钻瓜专利网。