[发明专利]一种基于强化学习的多轮对话答复选择模型及其方法有效
申请号: | 201811319709.2 | 申请日: | 2018-11-07 |
公开(公告)号: | CN109597876B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 林键;卓汉逵 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 510275 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 轮对 答复 选择 模型 及其 方法 | ||
本发明公开了一种基于强化学习的多轮对话答复选择模型及其方法,该模型包括:策略网络模块,采用随机策略,在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作,从而对整个上下文文本得到一个动作序列,并根据分类网络的分类结果获得延时奖励;上下文文本重构网络,根据所述策略网络模块输出的动作序列,重构出一个新的上下文文本;分类网络模块,将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新所述策略网络模块,本发明不仅能够自动地过滤掉与任务无关的词语,同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于强化学习的多轮对话答复选择模型及其方法。
背景技术
目前构建闲聊型的聊天机器人的工作主要分类两种,一种是基于生成的聊天机器人,另外一种是基于检索的聊天机器人。而由于基于检索的聊天机器人是从实现定义好的索引中进行搜索,从当前对话中学习并选择回复的句子,因此回答的内容不会存在语法或者语义的错误,因此广受人们关注。
基于检索的聊天机器人的早期研究主要集中于研究单轮对话,而单轮对话只考虑上一个输入的句子,没有完全考虑对话的上下文。近年来,随着闲聊型聊天机器人的普及与深入,基于检索的多轮对话越来越受到人们的关注,如表1所示就是基于检索的多轮对话的一个例子。在多轮对话的答复选择中,将当前的消息和先前的话语作为输入,对话系统选择一个自然地、与对话上下文语义相关的句子作为相应,因此对话系统最重要的是要从之前的话语中找出重要的信息,并恰当地模仿话语之前的关系,以确保谈话的连贯性。
表1基于检索的多轮对话的一个例子
众所周知,多轮对话的难点在于不仅仅要考虑当前的提出的问题,还需要考虑到前几轮对话的情景以及上下文出现的信息。因此,基于检索的多轮对话的难点主要有两点:第一、如何从上下文中确定用于确定答复的关键信息,包括关键词、关键短语或者关键句等;第二、如何在上下文中模拟多轮对话之间的关系。
目前,基于检索的多轮对话的实现方法有不少,一种比较简单的方法是将上下文的句子拼接起来,然后与候选的答复做匹配,这种方法的缺点是由于对话上下文的冗余信息太多,导致引入很多多余的噪声。因此,多轮对话的关键是识别对话上下文中与答复相关的信息,然后对答句与相关信息之间的关系进行建模,有人提出了一种将答句与上文各个句子分别匹配的序列匹配模型(SMN)。
具体地,给定一个数据集其中表示对话的上下文,表示上下文中的一个句子。ri是一个候选的回答,yi∈{0,1}表示一个类标。当yi=1表示ri是si的一个合理答复,否则yi=0。模型的目标是在数据集D上学习一个匹配模型g(·,·)。g(s,r)能够建模上下文-答复对(s,r)之间的关系。
而所述序列匹配模型SMN就是在建模g(s,r),SMN首先将上下文-答复对匹配问题分解为几个上下文句子-答复对匹配问题,然后使用循环神经网络将句子匹配的结果聚合起来。
SMN模型包含三个部分,第一部分是将候选的回答句子分别于上下文的各个句子进不同粒度(词语和词组级别)的匹配,然后使用一个卷积神经网络(CNN),提取其中包含的匹配信息。第二部分是使用一个门循环单元(GRU)将多个句子的匹配信息聚合起来。第三部分是使用第二部分的GRU中的隐藏状态来计算最后的匹配值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811319709.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于词嵌入的高斯LDA的优化求解方式
- 下一篇:一种知识的推理方法及装置