[发明专利]一种基于强化学习的多轮对话答复选择模型及其方法有效
申请号: | 201811319709.2 | 申请日: | 2018-11-07 |
公开(公告)号: | CN109597876B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 林键;卓汉逵 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 510275 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 轮对 答复 选择 模型 及其 方法 | ||
1.一种基于强化学习的多轮对话答复选择方法,包括如下步骤:
步骤S1,利用策略网络模块采用随机策略,在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作,从而对整个上下文文本得到一个动作序列;
步骤S2,利用上下文文本重构网络根据策略网络模块输出的动作序列,重构出一个新的上下文文本;
步骤S3,利用分类网络模块将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块;
所述随机策略为:
π(atst;θ)=sigmod(W*[hu,t-1;eu,t;e'u,t]+b)
其中π(atst;θ)表示选择动作at的概率,θ、W、b表示策略网络的参数,且θ={W,b},eu,t为上下文句子u在t状态下输入的词向量,hu,t-1表示上一状态下门循环网络GRU的隐藏状态向量,令候选回答其中er,i表示句子r中的第i个单词,对有et,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性;
步骤S3进一步包括:
步骤S300,将门循环单元的内部隐藏状态作为文本单词的表示,将重构后的上下文文本和候选回答句子,计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积,得到一个单词-单词的相似性矩阵;
步骤S301,利用卷积神经网络提取该相似性矩阵中的关键特征;
步骤S302,将该关键特征一个全连接层得到最后的分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块。
2.如权利要求1所述的一种基于强化学习的多轮对话答复选择方法,其特征在于:于步骤S2中,利用所述上下文文本重构网络获得所述策略网络模块得到的动作序列,过滤掉冗余的单词,并将过滤后的上下文文本拼接起来,得到重构后的上下文文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811319709.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于词嵌入的高斯LDA的优化求解方式
- 下一篇:一种知识的推理方法及装置