[发明专利]一种基于语句改写的面向端到端对话的数据增强方法有效

专利信息
申请号: 202010151751.9 申请日: 2020-03-06
公开(公告)号: CN111522921B 公开(公告)日: 2023-06-02
发明(设计)人: 胡若云;王正国;沈然;吕诗宁;江俊军;丁麒;朱斌;孙钢;金良峰;汪一帆;谷泓杰 申请(专利权)人: 国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/36;G06N3/0442
代理公司: 浙江翔隆专利事务所(普通合伙) 33206 代理人: 王晓燕
地址: 311100 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语句 改写 面向 端到端 对话 数据 增强 方法
【说明书】:

发明公开了一种基于语句改写的面向端到端对话的数据增强方法,涉及一种数据处理方法。目前现场增强难以实现系统层面的整体优化。本发明通过构建并训练一个语句改写模型来扩充对话生成模型的训练数据,通过定义用户语句的对话功能来构造语句改写模型的训练参考;采用基于序列到序列的框架,使用两个解码器依次解码前一轮系统对话动作和改写后的用户语句,前一轮系统对话动作可以为用户语句的改写提供对话历史背景,使得生成的改写语句更加符合对话语境。本技术方案在语句改写模型和对话生成模型的解码器之间加入了注意机制,实现端到端对话系统的搭建,并使得改写语句可以直接辅助对话生成,同时对话生成的结果也可以监督语句改写模型的训练。

技术领域

本发明涉及一种数据处理方法,尤其涉及一种基于语句改写的面向端到端对话的数据增强方法。

背景技术

搭建基于自然语言的智能对话系统来与人类进行交流,是人工智能的一个重要研究目标。对话系统的种类多样,其中,任务型对话系统能够协助人类完成特定领域下的特定任务,因而在电子客服、个人助理、自助终端等业务中有广泛的应用前景,得到了研究界和工业界的重点关注。一般而言,任务型对话系统需要构建并训练一个面向某个或某些特定领域的对话生成模型,来为输入的用户语句产生相应的有关特定任务的系统回复。随着深度学习的日趋成熟,神经网络模型被成功地应用到了对话生成模型的构建当中,使得基于神经网络的模块化结构成为了主流的构建对话生成模型的解决方案。

这种模块化的模型结构可以描述为:首先用户语句被送入自然语言理解模块进行领域检测、用户意图检测和语义解析,得到的语义标签;然后识别结果送入对话状态跟踪模块,进行多轮信息的整合,得到当前对话轮次的对话状态表示;接下来,根据对话状态进行数据库的查询,搜索用户希望查询的信息,送入对话策略选择模块中,确定系统的回复策略(称为系统对话动作);最后,系统根据所选择的系统动作,在自然语言生成模块中生成符合人类语言习惯的自然语言回复。特别地,Lei在2018年提出了一种基于复制机制的两阶段序列到序列(seq2seq)模型Sequicity,或称TSCP,该模型通过一个统一的seq2seq架构完成了自然语言理解、对话状态跟踪和自然语言生成这三个模块的功能,并在公开的单领域数据集上取得了很好的实验结果。之后,Zhang在2019年对TSCP进行改进并提出了模型DAMD,该模型在seq2seq架构中加入了对话策略选择模块的功能,实现了多领域自适应对话,并在公开的多领域数据集上取得了很好的实验结果。

然而,训练这种基于神经网络的对话生成模型通常需要大量的高质量的对话文本数据。由于需要寻找并记录在特定领域的特定任务中人与人或人与机器之间的对话,收集这样的训练数据是十分困难且耗费时间的。即使获得了足够多的对话文本记录,我们还需要对这些文本进行标注,以便更好地指导对话生成模型的训练。这种标注通常需要招募大量的工人完成,因而非常耗费人力和资金。这些困难造成了高质量对话文本的稀缺,从而限制了对话系统性能的提升。

对此,数据增强技术旨在构建模型自动地产生更多的训练样本,从而缓解训练数据缺乏的问题。然而,现阶段人们提出的一系列面向文本的数据增强方法都只是针对于独立的单个语句,并没有考虑语句在一段对话中所处的语境,因而直接应用于对话文本的数据扩充时效果较差。

目前,针对于文本的数据增强方法中最为常用的是语句改写,这种方法试图在不改变语义的条件下改写文本中的句子,从而生成更多的语句用以扩充文本数据。但是,现有的基于语句改写的数据增强方法都是单独训练一个语句改写模型用以扩充数据,再使用扩充后的数据单独训练目标模型。这种依赖于多训练阶段的方法会导致训练误差在不同的模型间累积,难以实现系统层面的多模型的整体优化,因而限制了数据增强的效果。

总结:目前的面向文本的数据增强方法存在以下问题:

(1)大部分现有的端到端对话系统在训练对话生成模型时,都需要有关特定领域内特定任务的大量的有标注的对话文本数据,但人工搜集并标注这样的文本数据实施困难且开销较大。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司,未经国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010151751.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top