[发明专利]多轮对话方法、系统、介质及装置有效
申请号: | 202110049695.2 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112800192B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 杨球松;苏磊 | 申请(专利权)人: | 云从科技集团股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N20/00;G10L15/26;G10L13/08 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库;郭婷 |
地址: | 511457 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 轮对 方法 系统 介质 装置 | ||
本发明属于智能语音交互技术领域,具体涉及一种多轮对话方法、系统、介质及装置。本发明旨在解决如何在任务式多轮对话中实现对话路径优化的技术问题,从而在保证完成任务的同时减少对话次数/轮次。为此目的,本发明通过将强化学习训练的决策智能体作为对话决策模块DPL的决策模型,从而根据最大化奖励值累加和作为训练目标而获得更优的决策模型以在任务式对话中尽量减少对话轮次。如此,优化了对话路径,有效避免了传统有监督学习神经网络DPL模块使用的模型的复杂高成本的运算并降低时间消耗。
技术领域
本发明属于语音交互技术领域,具体涉及一种多轮对话方法、系统、介质及装置。
背景技术
在人机交互系统中往往会使用智能对话技术,系统通过与用户对话进行信息收集、信息处理以完成既定目标。通常称这种对话形式为任务型对话,是由任务驱动多轮对话的,系统需要协助用户完成某种任务,例如智能导购(订餐、订票)、智能认证等。现有技术中,一种智能任务型的对话管线pipeline实现原理如图8所示,主要包括几个部分(模块):槽值填充SLU、对话状态追踪DST、对话策略学习DPL、意图识别NLG(自然语言生成)。在智能门禁这一应用场景下,任务式多轮对话系统可以引导用户进行多轮对话交互,收集必要信息从而完场特定场景下的任务。比如:用户的语音转换成文本(Text Utterance)即语音识别后,输入到SLU分析信息槽的槽值,进而预计了用户的行为传送到对话管理部分的DST预测出对话的状态,再将状态提供给DPL更新整个系统行为,然后通过NLG给用户提供识别了用户意图的系统响应(语音回答)。在整个系统中进行引导确定应该做出何种响应的就是DPL,DPL负责系统应答动作选取,即决定了系统回答内容。为了增强用户体验以及系统性能,系统就需要尽可能作出准确应答以及尽可能减少交互轮次,这样我们就必须有良好性能的DPL模型来实现对话路径优化。传统基于规则的DPL模型无法实现这种性能,因为所有对话路径都是人为提前通过逻辑结构设定好的,对于不能处理的用户问题都会使用统一回复。
另一方面,基于有监督学习的深度神经网络DPL模型虽然可以在迭代学习之后作出更加丰富准确的应答动作。但是需要大量带标签的多轮对话数据来训练模型,数据标注工作都需要耗费大量人力成本和时间成本。
因而,需要改进任务式多轮对话在应用时能在保证完成任务的前提下尽量减少对话轮次即优化对话路径,以及改进DPL的决策而尽量单轮准确应答。
发明内容
为了克服上述缺陷,提出了本发明,以解决或至少部分解决:如何在任务式多轮对话中实现对话路径优化的技术问题,在保证完成任务的同时减少对话次数/轮次。本发明为解决上述技术问题提供了一种多轮对话方法、系统、介质及装置。
第一方面,本发明提供一种多轮对话的决策模型训练方法,包括:根据第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话;为所述第m次对话中所形成的每一轮对话计算一单轮奖励值,并在所述第m次对话结束时给予所述第m次对话一单次奖励值;根据N次对话中每一次对话的单次奖励值、所述每一次对话中所有轮对话的单轮奖励值、,和强化学习算法对所述决策模型进行N次训练并更新所述决策模型;其中,t、m、N为大于等于1的自然数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云从科技集团股份有限公司,未经云从科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110049695.2/2.html,转载请声明来源钻瓜专利网。