[发明专利]一种基于强化学习的多轮对话答复选择模型及其方法有效
申请号: | 201811319709.2 | 申请日: | 2018-11-07 |
公开(公告)号: | CN109597876B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 林键;卓汉逵 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 510275 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于强化学习的多轮对话答复选择模型及其方法,该模型包括:策略网络模块,采用随机策略,在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作,从而对整个上下文文本得到一个动作序列,并根据分类网络的分类结果获得延时奖励;上下文文本重构网络,根据所述策略网络模块输出的动作序列,重构出一个新的上下文文本;分类网络模块,将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新所述策略网络模块,本发明不仅能够自动地过滤掉与任务无关的词语,同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。 | ||
搜索关键词: | 一种 基于 强化 学习 轮对 答复 选择 模型 及其 方法 | ||
【主权项】:
1.一种基于强化学习的多轮对话答复选择模型,包括:策略网络模块,用于采用随机策略,在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作,从而对整个上下文文本得到一个动作序列,并根据分类网络的分类结果获得延时奖励,以指导策略网络模块更新;上下文文本重构网络,用于根据所述策略网络模块输出的动作序列,重构出一个新的上下文文本;分类网络模块,用于将所述上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新所述策略网络模块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811319709.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于词嵌入的高斯LDA的优化求解方式
- 下一篇:一种知识的推理方法及装置