[发明专利]一种结合知识增强和深度强化学习的对话策略优化方法在审

申请号：	202110997386.8	申请日：	2021-08-27
公开（公告）号：	CN113704425A	公开（公告）日：	2021-11-26
发明（设计）人：	陈颖璇;吴广财;叶杭;刘佳木;林嘉鑫;周昉昉;郑颖龙;朱泰鹏;黄彬系	申请（专利权）人：	广东电力信息科技有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F16/338;G06N20/00
代理公司：	北京世誉鑫诚专利代理有限公司 11368	代理人：	任欣生
地址：	510030 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合知识增强深度强化学习对话策略优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供的一种结合知识增强和深度强化学习的对话策略优化方法，所述优化方法包括：获取用户给出的语言描述信息；将所述语言描述信息进行增强，获得增强数据集；根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法，所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。首先对用户的问题进行主题知识增强，然后使用深度强化学习方法应用于DPL学习对话的动作决策中，最后加权选择最终的决策。这种方式泛化能力强，极大地减少了人工成本，并且提高了人机对话系统的灵活性。

技术领域

本发明涉及对话策略领域，尤其涉及一种结合知识增强和深度强化学习的对话策略优化方法。

背景技术

对话系统一般分为目标导向型对话系统和闲聊型对话系统，其中目标导向型的对话系统具有明确需要完成的任务目标。对话系统的最新进展绝大多数是由深度学习技术所贡献的，深度学习技术通过利用大规模数据来学习有意义的特征表示和回复生成策略，同时只需要少量人工特征，这个发展使得对话系统在工业界越来越广泛地被应用。

深度强化学习是深度学习与强化学习相结合的产物，集成了深度学习的理解能力和强化学习的决策能力，使得强化学习技术真正走向实用，得以解决现实场景中的复杂问题。

目前，工业界普遍使用的对话策略都是基于规则的，但是这种方式只能在比较小的任务上效果比较好。基于规则的对话策略动作状态序列固定，必须规规矩矩按照系统提示问答，否则无法响应需求。人力成本高，泛化能力差。

发明内容

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种结合知识增强和深度强化学习的对话策略优化方法。

根据本发明的一个方面，提供了一种结合知识增强和深度强化学习的对话策略优化方法，所述优化方法包括：

获取用户给出的语言描述信息；

将所述语言描述信息进行增强，获得增强数据集；

根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法，所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。