[发明专利]多轮对话方法、系统、介质及装置有效

申请号：	202110049695.2	申请日：	2021-01-14
公开（公告）号：	CN112800192B	公开（公告）日：	2022-02-08
发明（设计）人：	杨球松;苏磊	申请（专利权）人：	云从科技集团股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06N20/00;G10L15/26;G10L13/08
代理公司：	北京瀚仁知识产权代理事务所(普通合伙) 11482	代理人：	宋宝库;郭婷
地址：	511457 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	轮对方法系统介质装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多轮对话的决策模型训练方法，其特征在于，包括：

根据N次对话中第m次对话的任务目标，为预测的系统行为，生成对应的用户的模拟行为，以形成t轮对话；

为所述第m次对话中所形成的t轮对话中的每一轮对话计算一单轮奖励值，具体包括：根据每一轮对话所处的轮数，以线性递减方式给予一个负奖励值；根据在所述每一轮对话后所述任务目标中的信息槽内填入的正确的目标槽值的数量计算一个正奖励值；将所述负奖励值与正奖励值累加获得所述每一轮对话的所述奖励值r_t；其中，对应的轮数越大，给予的所述负奖励值越小；其中，所述正确的目标槽值的数量越多，计算的所述正奖励值越大；并在所述第m次对话结束时给予所述第m次对话一单次奖励值，具体包括：统计结束时所述任务目标中的信息槽内正确的目标槽值数量；根据所述正确的目标槽值数量，确定所述第m次对话的单次奖励值；

根据N次对话中每一次对话的单次奖励值、所述每一次对话中所有轮对话的单轮奖励值和强化学习算法对所述决策模型进行N次训练并更新所述决策模型；

其中，t、m、N为大于等于1的自然数。

2.如权利要求1所述的方法，其特征在于，所述“根据N次对话中第m次对话的任务目标，为预测的系统行为，生成对应的用户的模拟行为，以形成t轮对话”之前包括：

构建第m次对话的任务目标以确定生成模拟行为的规则或模型；

根据存储的历史对话状态，为接收的任一结构化数据，进行当前对话状态预测；

通过所述决策模型，为所述当前对话状态，进行所述系统行为预测；

其中，接收的任一结构化数据为任何一轮对话中的所述系统行为或所述模拟行为；

所述“根据N次对话中第m次对话的任务目标，为预测的系统行为，生成对应的用户的模拟行为，以形成t轮对话”具体包括：

根据所述任务目标确定的所述规则或所述模型、结合历史对话状态以及一所述系统行为，生成对应的一模拟用户回应所述系统行为的当前对话行为，作为所述模拟行为，以完成一轮交互对话；

并且，根据历史对话状态，为所述当前对话行为，进行新的当前对话状态预测；

将完成的一轮交互对话中的所述系统行为记为a_t、所述当前对话状态记为s_t、新的所述当前对话状态记为s_t+1、计算的所述单轮奖励值记为r_t；以及，

将单轮对话状态元组记为(s_t,a_t,r_t,s_t+1)，并加入到单次对话状态列表中。