[发明专利]响应信息输出方法、装置、电子设备及可读存储介质在审
申请号: | 202010791077.0 | 申请日: | 2020-08-07 |
公开(公告)号: | CN112084300A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 何可清;杨玉树;江会星 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/36;G06F40/30;G06K9/62;G06N20/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 响应 信息 输出 方法 装置 电子设备 可读 存储 介质 | ||
1.一种响应信息输出方法,其特征在于,包括:
获得当前节点的信息;
将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;
输出所述目标响应节点的信息;
其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。
2.根据权利要求1所述的方法,其特征在于,所述响应节点预测模型是通过以下步骤得到的:
以包含多个样本节点对的集合为输入,对所述预设模型进行多次强化学习训练,得到响应节点预测模型,每个样本节点对包括具有转移关系的两个样本节点;
其中,在对所述预设模型进行多次强化学习训练的过程中:
根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度,确定所述预设模型本次强化学习训练的奖励值,其中,所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点;
根据所述预设模型本次强化学习训练的奖励值,对所述预设模型进行更新;
对更新后的预设模型进行下一次强化学习训练。
3.根据权利要求1或2所述的方法,其特征在于,每次强化学习训练的奖励值是按照以下方式确定的:
在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度大于预设阈值的情况下,确定本次强化学习训练的奖励值为第一奖励值,
在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度不大于所述预设阈值的情况下,确定本次强化学习训练的奖励值为第二奖励值;
其中,所述第二奖励值小于所述第一奖励值。
4.根据权利要求1所述的方法,其特征在于,所述响应节点预测模型是基于任务的响应节点预测模型;所述方法还包括:
在所述预设模型本次预测的响应节点为终止节点时,判断所述终止节点是否携带任务已完成标签;
在所述终止节点携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第一总奖励值;
在所述终止节点未携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第二总奖励值,所述第二总奖励值小于所述第一总奖励值;
根据所述预设模型的总奖励值,对所述预设模型进行更新。
5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
在对所述预设模型进行多次强化学习训练的过程中,根据所述预设模型多次强化学习训练的奖励值,确定所述预设模型的累计奖励期望值;
根据所述预设模型的累计奖励期望值,对所述预设模型进行更新。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在对所述预设模型进行多次强化学习训练的过程中,确定所述预设模型每次预测的响应节点与预设期望响应节点之间的差异值,确定所述预设模型的累计差异值;
根据所述预设模型的累计奖励期望值,对所述预设模型进行更新,包括:
根据所述预设模型的累计差异值和所述预设模型的累计奖励期望值,对所述预设模型进行更新。
7.根据权利要求1-4任一所述的方法,其特征在于,所述响应节点预测模型为会话响应消息预测模型;获得当前节点的信息,包括:
获得用户针对本轮对话所输入的待响应对话消息;
对所述待响应对话消息进行意图识别,确定用户意图;
根据所述用户意图,确定关键词;
将所述关键词与预设对话结构中的节点进行匹配,以确定当前节点的信息。
8.根据权利要求7所述的方法,其特征在于,所述预设对话结构是按照以下步骤生成的:
获得多轮历史对话消息,一轮历史对话消息包括用户输入的对话消息和相应的预设响应消息;
对所述多轮历史对话消息进行解析,以得到包含不同对话消息之间的转移关系的预设对话结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010791077.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种进水装置
- 下一篇:搜索排序模型训练方法及装置、搜索排序方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置