[发明专利]一种联合进化更新的任务型对话方法及系统在审

申请号：	202310061497.7	申请日：	2023-01-20
公开（公告）号：	CN116010577A	公开（公告）日：	2023-04-25
发明（设计）人：	董宇涵;池达丰;李志德;张凯	申请（专利权）人：	清华大学深圳国际研究生院
主分类号：	G06F16/332	分类号：	G06F16/332;G06F18/214;G06N3/092;G06N3/09;G06N3/084;G06N3/0985;G06N7/01
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	江耀锋
地址：	518055 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种联合进化更新任务对话方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种联合进化更新的任务型对话方法及系统，所述方法包括如下步骤：A1：使用公开数据集得到训练集数据；A2：使用所述训练集数据构建预训练语言模型输入序列数据；A3：根据所述预训练语言模型输入序列数据得到用户模拟器和对话系统；A4：根据所述用户模拟器和对话系统得到在线对话数据池，基于在线强化学习对所述在线对话数据池进行优化，并联合更新用户模拟器和对话系统。本发明能够实现通过不断优化在线对话数据池中数据以获得高质量的对话数据池，为在线数据收集构建了高质量的循环，从而得到更优的用户模拟器和对话系统，提升整体的对话成功率。

技术领域

本发明涉及计算机中的自然语言处理以及人工智能的技术领域，特别是涉及一种联合进化更新的任务型对话方法及系统。

背景技术

对话式人工智能^[1]是自然语言处理领域的一个长期探索课题。其中在任务型对话中，用户有要完成的目标，系统提供了一个接口来访问外部数据库。双方用户只能通过自然语言交流从对方获取相关信息。

传统地，任务型对话^[2](Task-Oriented Dialogue，TOD)系统是通过流水线方法^[3]将任务分解为多个独立模块^[4]来训练得到的。最近，利用GPT等预训练语言模型将任务型对话系统建模为统一语言任务(比如SimpleTOD^[5])变得流行，这一做法解决了流水线方法中的跨模块错误累积问题。然而，预训练语言模型存在由于其从未在训练期间见过自己模型的预测的曝光偏差^[6]问题。因此，这将导致测试期间输出生成过程中的累积误差。与此同时，在预训练语言模型的训练阶段目标通常是最小化最大似然损失，但是通常训练得到的模型在测试阶段使用离散和不可微分的评价准则(例如成功率和匹配率)进行评估。这将造成训练目标和测试目标之间不匹配的问题，因此可能产生不一致的评测结果。

为了避免上述问题，强化学习(Reinforcement Learning，RL)已成为一种在任务型对话中微调离线预训练语言模型GPT的有效方法，因为RL优化^[7]直接依赖于其自身的输出和奖励(例如，成功率)作为更新指导，而不是事实真相的标签。

RL通常需要大量的在线交互来进行训练，然而与真实的人类用户交互既耗时又昂贵。所以与基于RL的对话系统建立交互的一种直观方法是训练另外一个同样基于预训练语言模型GPT-2的用户模拟器^[8]，该用户模拟器从真实数据中学习以模仿人类行为。然而这种交互方式带来了额外的曝光偏差问题。

现有方法通常采用迭代联合更新^[9][10][11](图1)来隐式的解决在线强化学习微调过程中的分布偏移问题。然而这种方式通过牺牲样本效率来改善问题，并可能导致次优策略的习得。

参考文献

[1]Gao J,Galley M,Li L.Neural approaches to conversational ai[C]//Proceedings of The 41st International ACM SIGIR Conference on ResearchDevelopment in Information Retrieval.2018:1371-1374.

[2]Zhang Y,Ou Z,Yu Z.Task-oriented dialog systems that considermultiple appropriate responses under the same context[C]//Proceedings of theAAAI Conference on Artificial Intelligence.2020,34(05):9604-9611.

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院，未经清华大学深圳国际研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310061497.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种快速检查板坯表面横裂纹的方法
下一篇：一种零曝气组合式生物膜工艺脱氮污水处理系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种联合进化更新的任务型对话方法及系统在审

专利文献下载