[发明专利]一种基于对话框状态跟踪模型的任务外训练系统在审
申请号: | 202110104849.3 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112818097A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 潘晓光;焦璐璐;令狐彬;宋晓晨;韩丹 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62 |
代理公司: | 太原荣信德知识产权代理事务所(特殊普通合伙) 14119 | 代理人: | 杨凯;连慧敏 |
地址: | 030006 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对话框 状态 跟踪 模型 任务 训练 系统 | ||
本发明属于自然语言数据处理领域,具体涉及一种基于对话框状态跟踪模型的任务外训练系统,包括DST模块、辅助任务模块、ITFT模块和MTL模块,所述ITFT模块连接有MTL模块,所述MTL模块连接有DST模块,所述MTL模块连接有辅助任务模块。本发明通过辅助任务数据有利于支持模型训练,尤其是MTL的使用,大大提高了处理高难度任务的性能。同时本发明为大量不相关的自然语言处理语料库打开了大门,这些语料库定义在广泛的非对话任务中,以缓解DST中的数据稀疏问题。本发明用于跟踪模型的任务外训练。
技术领域
本发明属于自然语言数据处理领域,具体涉及一种基于对话框状态跟踪模型的任务外训练系统。
背景技术
目前在面向任务的对话系统中,对话状态跟踪器的作用是总结到目前为止的对话历史并提取用户目标。对话状态跟踪(DST)受到数据稀疏性的严重影响。虽然许多自然语言处理(NLP)任务受益于迁移学习和多任务学习,但在对话中,这些方法受到可用数据量和对话应用的特殊性的限制,对话状态跟踪存在严重的数据稀疏性问题且自然语言处理在有关对话的处理上存在着无法解决或解决效果不好的问题。
发明内容
针对上述对话状态跟踪受到数据稀疏性的严重影响的技术问题,本发明提供了一种效率高、误差小、稳定性强的基于对话框状态跟踪模型的任务外训练系统。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于对话框状态跟踪模型的任务外训练系统,包括DST模块、辅助任务模块、ITFT模块和MTL模块,所述ITFT模块连接有MTL模块,所述MTL模块连接有DST模块,所述MTL模块连接有辅助任务模块;
所述DST模块用于从用户输入中提取意义和意图,并在对话的继续过程中保留和更新这些信息;
所述辅助任务模块用于支持模型训练;
所述ITFT模块用于将编码器的参数引导到一个有利的方向,以便后续的微调能找到更好的局部最优;
所述MTL模块用于在辅助任务和目标任务之间同时训练相同的模型。
所述DST模块中,DST即对话状态跟踪,使用DST模型Trippy处理数据集,通过Roberta编译器给予bert对片段的区分在对话中的适应性。
所述辅助任务模块中,包括句子和句子对层面的分类任务,所述辅助任务模块采用以下训练约束:辅助任务为分类问题或跨度预测问题;一次只能使用一个辅助任务。
所述ITFT模块为任务微调模块,在两个不相关的任务上连续训练相同的模型,所述两个不相关的任务分别为辅助任务和DST任务。
所述MTL模块为多任务学习模块,对每一步进行DST训练,而且对辅助任务进行额外的训练,在步骤的层次上,训练在辅助任务和目标任务之间交替进行,所述辅助任务和目标任务同享一个优化器,并连续执行连两个更新。
本发明与现有技术相比,具有的有益效果是:
本发明通过辅助任务数据有利于支持模型训练,尤其是MTL的使用,大大提高了处理高难度任务的性能。同时本发明为大量不相关的自然语言处理语料库打开了大门,这些语料库定义在广泛的非对话任务中,以缓解DST中的数据稀疏问题。
附图说明
图1为本发明的主要步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110104849.3/2.html,转载请声明来源钻瓜专利网。