[发明专利]一种基于语句改写的面向端到端对话的数据增强方法有效
申请号: | 202010151751.9 | 申请日: | 2020-03-06 |
公开(公告)号: | CN111522921B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 胡若云;王正国;沈然;吕诗宁;江俊军;丁麒;朱斌;孙钢;金良峰;汪一帆;谷泓杰 | 申请(专利权)人: | 国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36;G06N3/0442 |
代理公司: | 浙江翔隆专利事务所(普通合伙) 33206 | 代理人: | 王晓燕 |
地址: | 311100 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语句 改写 面向 端到端 对话 数据 增强 方法 | ||
1.一种基于语句改写的面向端到端对话的数据增强方法,其特征在于包括以下步骤:
1)模型训练
101)搜索原始对话文本并考察所有用户语句的对话功能,为每一个用户语句匹配一个参考改写语句;
102)将用户语句输入语句改写模型,并对其进行预处理,包括分词、正规化操作;
103)对输入的用户语句以及前一轮系统回复进行编码,得到语句的向量表示;
104)根据上一步编码结果解码前一轮系统对话动作;
105)根据步骤(103)编码结果和前一轮系统对话动作,解码改写后的用户语句;
106)检查改写后的用户语句,筛选出改动较大但含义不变的语句,用以替换原对话文本中的用户语句,生成新的对话文本,并将其并入原对话文本,得到扩充的训练数据,得到对话生成模型;
2)当用户提出请求时,将用户语句输入语句改写模型,并对其进行预处理;
3)对输入的用户语句以及前一轮系统回复进行编码,得到语句的向量表示;
4)根据上一步编码结果解码前一轮系统对话动作;
5)根据步骤3)编码结果和前一轮系统对话动作,解码改写后的用户语句;
6)将用户语句输入对话生成模型,并将其连同前一轮系统回复和前一轮对话状态重新进行编码,获得向量表示;
7)根据上一步编码结果和步骤5)语句改写的解码结果,进行对话状态解码,解码过程中依次输出识别到的对话领域、属性槽和属性值;
8)根据对话状态,在数据库中查询符合要求的实体;
9)判断模型类别;当模型为DAMD时,根据对话状态解码结果和数据库查询结果进行系统对话动作的解码,当模型为TSCP时,则直接跳至下一步;
10)根据之前所有的编解码和查询结果,生成系统的自然语言回复;
11)对生成的回复进行后处理,后处理包括单词合并、添加标点,得到呈现给用户的自然语言,并回复。
2.根据权利要求1所述的一种基于语句改写的面向端到端对话的数据增强方法,其特征在于:在步骤1)中,联合训练一个语句改写模型和一个对话生成模型;两模型都采用基于序列到序列(seq2seq)的框架,由一个对话上下文编码器(encoder)和多个串联的解码器(decoder)组成;语句改写模型包含系统对话动作解码器和改写语句解码器;对话生成模型则有两种,TSCP模型包含对话状态解码器和自然语言回复解码器,DAMD模型则在TSCP模型的两解码器之间又加入了一个系统对话动作解码器。
3.根据权利要求2所述的一种基于语句改写的面向端到端对话的数据增强方法,其特征在于:在步骤102)及步骤2)中,对输入的用户语句进行分词,再将其送入语句改写模型的上下文编码器。
4.根据权利要求3所述的一种基于语句改写的面向端到端对话的数据增强方法,其特征在于:在步骤103)及步骤3)中,将前一轮系统回复和输入的用户语句串联为自然语言单词序列,并使用一个层数为1、隐层神经元数量为50或100的双向GRU模型作为编码器,将该单词序列编码为等长的向量序列,称为隐状态;编码过程实现了在隐状态空间融合并理解对话中包含的语义信息;该编码器的输出结果将依次送到语句改写模型的两个解码器,用于后续模型输出的解码。
5.根据权利要求4所述的一种基于语句改写的面向端到端对话的数据增强方法,其特征在于:在步骤104)及步骤4)中,语句改写模型通过系统对话动作解码器(ActionDecoder)进行前一轮系统对话动作At-1的解码;对话动作使用自然语言序列加以表示;且认为前一轮系统对话动作与前一轮系统回复Rt-1直接相关,并且用当前轮次用户语句Ut进行反向推演,基于此两者的编码结果解码出前一轮系统对话动作:
At-1=seq2seq(Rt-1,Ut)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司,未经国网浙江省电力有限公司营销服务中心;国网浙江玉环市供电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010151751.9/1.html,转载请声明来源钻瓜专利网。