[发明专利]一种基于语句改写的面向端到端对话的数据增强方法有效

专利信息
申请号: 202010151751.9 申请日: 2020-03-06
公开(公告)号: CN111522921B 公开(公告)日: 2023-06-02
发明(设计)人: 胡若云;王正国;沈然;吕诗宁;江俊军;丁麒;朱斌;孙钢;金良峰;汪一帆;谷泓杰 申请(专利权)人: 国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/36;G06N3/0442
代理公司: 浙江翔隆专利事务所(普通合伙) 33206 代理人: 王晓燕
地址: 311100 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语句 改写 面向 端到端 对话 数据 增强 方法
【权利要求书】:

1.一种基于语句改写的面向端到端对话的数据增强方法,其特征在于包括以下步骤:

1)模型训练

101)搜索原始对话文本并考察所有用户语句的对话功能,为每一个用户语句匹配一个参考改写语句;

102)将用户语句输入语句改写模型,并对其进行预处理,包括分词、正规化操作;

103)对输入的用户语句以及前一轮系统回复进行编码,得到语句的向量表示;

104)根据上一步编码结果解码前一轮系统对话动作;

105)根据步骤(103)编码结果和前一轮系统对话动作,解码改写后的用户语句;

106)检查改写后的用户语句,筛选出改动较大但含义不变的语句,用以替换原对话文本中的用户语句,生成新的对话文本,并将其并入原对话文本,得到扩充的训练数据,得到对话生成模型;

2)当用户提出请求时,将用户语句输入语句改写模型,并对其进行预处理;

3)对输入的用户语句以及前一轮系统回复进行编码,得到语句的向量表示;

4)根据上一步编码结果解码前一轮系统对话动作;

5)根据步骤3)编码结果和前一轮系统对话动作,解码改写后的用户语句;

6)将用户语句输入对话生成模型,并将其连同前一轮系统回复和前一轮对话状态重新进行编码,获得向量表示;

7)根据上一步编码结果和步骤5)语句改写的解码结果,进行对话状态解码,解码过程中依次输出识别到的对话领域、属性槽和属性值;

8)根据对话状态,在数据库中查询符合要求的实体;

9)判断模型类别;当模型为DAMD时,根据对话状态解码结果和数据库查询结果进行系统对话动作的解码,当模型为TSCP时,则直接跳至下一步;

10)根据之前所有的编解码和查询结果,生成系统的自然语言回复;

11)对生成的回复进行后处理,后处理包括单词合并、添加标点,得到呈现给用户的自然语言,并回复。

2.根据权利要求1所述的一种基于语句改写的面向端到端对话的数据增强方法,其特征在于:在步骤1)中,联合训练一个语句改写模型和一个对话生成模型;两模型都采用基于序列到序列(seq2seq)的框架,由一个对话上下文编码器(encoder)和多个串联的解码器(decoder)组成;语句改写模型包含系统对话动作解码器和改写语句解码器;对话生成模型则有两种,TSCP模型包含对话状态解码器和自然语言回复解码器,DAMD模型则在TSCP模型的两解码器之间又加入了一个系统对话动作解码器。

3.根据权利要求2所述的一种基于语句改写的面向端到端对话的数据增强方法,其特征在于:在步骤102)及步骤2)中,对输入的用户语句进行分词,再将其送入语句改写模型的上下文编码器。

4.根据权利要求3所述的一种基于语句改写的面向端到端对话的数据增强方法,其特征在于:在步骤103)及步骤3)中,将前一轮系统回复和输入的用户语句串联为自然语言单词序列,并使用一个层数为1、隐层神经元数量为50或100的双向GRU模型作为编码器,将该单词序列编码为等长的向量序列,称为隐状态;编码过程实现了在隐状态空间融合并理解对话中包含的语义信息;该编码器的输出结果将依次送到语句改写模型的两个解码器,用于后续模型输出的解码。

5.根据权利要求4所述的一种基于语句改写的面向端到端对话的数据增强方法,其特征在于:在步骤104)及步骤4)中,语句改写模型通过系统对话动作解码器(ActionDecoder)进行前一轮系统对话动作At-1的解码;对话动作使用自然语言序列加以表示;且认为前一轮系统对话动作与前一轮系统回复Rt-1直接相关,并且用当前轮次用户语句Ut进行反向推演,基于此两者的编码结果解码出前一轮系统对话动作:

At-1=seq2seq(Rt-1,Ut)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司,未经国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010151751.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top