[发明专利]完全并行化具有领域扩展性的端到端多轮对话系统及方法有效
申请号: | 201910411706.X | 申请日: | 2019-05-17 |
公开(公告)号: | CN110196928B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 鄂海红;宋美娜;陈忠富;牛佩晴;周筱松;程瑞;肖思琪 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06K9/62;G06N3/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 100876 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 完全 并行 具有 领域 扩展性 端到端多 轮对 系统 方法 | ||
本发明公开了一种完全并行化具有领域扩展性的端到端多轮对话系统及方法,其中,系统包括:输入嵌入层,用于在用户输入信息输入至输入嵌入层后,生成向量表示形式的输入信息;编码器,用于对输入信息进行编码,得到用户输入的抽象表示;对话状态解码器,用于根据抽象表示得到对话状态表示;数据库,用于根据对话状态表示查询得到查询结果;机器响应解码器,用于在查询结果和对话状态共同输入至机器响应解码器后,生成机器回答。该系统实现了各模块之间的一体化,可以实现真正意义上的端到端训练,且在提升了模型的训练速度的同时简化了模型的结构,并具有领域可扩展性,简单易实现。
技术领域
本发明涉及信息技术及数据业务技术领域,特别涉及一种完全并行化具有领域扩展性的端到端多轮对话系统及方法。
背景技术
目前工业界主流的任务驱动型多轮对话系统主要是基于传统的流水线方式设计的,这种方式的结构复杂,涉及到多模块之间的相互协调,但最终用户的反馈很难传递到上游模块,一个组件调整需要大量人工成本对所有组件进行相应更改。这样各个模块高度相互依赖的结构影响了对话系统的性能和效率,带给用户不佳的体验。相关技术中,一种多轮对话的方法和系统,是基于这种流水线架构设计的,主要分为自然语言理解、对话状态跟踪、策略学习、自然语言生成四个模块。
基于这种现状,越来越多的研究开始投入到端到端的任务型多轮对话系统中,但这些系统大多基于复杂的循环神经网络结构,加剧了模型的复杂性,且基于循环神经网络的模型遇到时间依赖和序列依赖的问题,无法实现完全并行化的架构,充分发挥GPU(Graphics Processing Unit,图像处理器)的性能。相关技术中,一种端到端层次解码任务型对话系统,但系统仅仅依赖于数据库检索,并没有完整的划分对话状态跟踪和自然语言生成模块,可能导致在复杂环境中很难适用,依然高度依赖于双向长短期记忆网络(一种RNN(Recurrent Neural Network,循环神经网路)网络的变体,能捕获句子中的长距离依赖),因此具有庞大的参数和复杂的结构,这也使得模型的训练速度变得非常慢,很大程度上影响了模型的性能。
除此之外,现有的端到端模型大多只是采用共同训练的方式使得各个模块弱关联起来,但并未建立各个模块之间的真正联系,未考虑各个模块之间的交叉影响,在训练过程中会涉及到许多变量的传递,并未实现真正意义上的端到端。除此之外,现有的模型只适用于某一个单一的领域,在进行领域迁移时需要重新定义意图和槽值的标签,不具有领域可扩展性。相关技术中,一种基于seq2seq模型的实现问答机器人的方法,该方法先根据问答语句的上下文信息提取主题词,再将处理之后的用户问句放入seq2seq模型中进行训练,用户问句处理部分需要单独进行训练,并没有实现真正意义上的端到端训练,进一步加剧了模型的复杂性,并且简单的问答也很难适应多轮的对话场景。此外,当该模型进行领域迁移时,需要重新定义数据标签(意图、槽值等),为领域迁移带来了困难。
发明内容
本申请是基于发明人对以下问题的认识和发现做出的:
传统的流水线设计方式结构复杂,各模块之间相互独立,协调困难,端到端的多轮对话框架是未来的发展趋势。而仅有的数量不多的端到端框架仍然是基于循环迭代网络(RNN)实现的,结构复杂,且存在时间依赖和序列依赖的问题,训练缓慢,参数庞大。
上述技术仍然遵循流水线的设计方式,需要额外的训练子模块,并未实现真正意义上的端到端,训练效率不高。且现有的多轮对话系统大多基于深度学习中的循环神经网络,因为RNN网络本身是串行结构,本轮输出会用到上一轮输出的信息,因此存在时间依赖和序列依赖的问题,且循环神经网络本身的结构就较为复杂,更加剧了系统整体的复杂性。
因此,当前任务型对话系统仍存在两个问题:(1)如何高效准确的一体化任务型对话系统,实现真正意义上的端到端模型;(2)高度依赖循环神经网络导致的时间依赖与序列依赖,形成参数庞大,训练缓慢的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910411706.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多轮人机对话方法、装置及设备
- 下一篇:问答对的生成方法和装置