[发明专利]基于门控拷贝和掩码的多轮对话省略恢复方法在审

专利信息
申请号: 202011366188.3 申请日: 2020-11-29
公开(公告)号: CN112417864A 公开(公告)日: 2021-02-26
发明(设计)人: 郑杰;包兴;王迪;费涛;段贺;顾爽 申请(专利权)人: 中国科学院电子学研究所苏州研究院
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F40/216;G06N3/04;G06N3/08
代理公司: 南京理工大学专利中心 32203 代理人: 封睿
地址: 215000 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 门控 拷贝 掩码 轮对 省略 恢复 方法
【说明书】:

发明提出了一种基于门控拷贝和掩码的多轮对话省略恢复方法,获取原始省略句和其上下文文本内容;使用分词工具对文本进行分词,使用词典将词语序列映射为数字序列;使用预训练好的词向量文件来表示词语;基于门控机制,融合多头自注意力信息和Bi‑GRU的门控编码器,对省略句词向量序列和上下文词向量序列进行语义编码;基于软掩码机制,计算省略句的软掩码特征;利用掩码解码器,计算词表的概率分布;计算上下文词语的分值,使用Softmax函数对分值进行归一化,得到上下文概率分布;利用门控单元将词表的概率分布和上下文概率分布相加,得到最终的省略词概率分布,选择省略句的填充内容。本发明提高了省略恢复结果准确度。

技术领域

本发明涉及自然语言处理领域,具体涉及一种基于门控拷贝和掩码的多轮对话省略恢复方法。

背景技术

为了避免重复的口语表达习惯,在多轮对话场景下,语句的省略现象非常频繁。人可以很容易的根据对话场景信息以及历史对话信息进行意图推断和省略内容恢复,但是这对于现阶段的对话模型来说却是非常困难的,特别是在任务导向的多轮对话中。表1中举出一个关于饭店推荐的多轮对话例子。在例子中,Human2和Human3都省略了饭店名称LittleSeoul。从这个例子可以看出,不同于多轮闲聊对话,任务导向的多轮对话省略的内容更多是实体信息,比如例子中的LittleSeoul。这些实体内容常常蕴含对话的意图信息、主题信息或者是推进模式信息,这有助于任务导向的多轮对话系统根据用户请求生成合适的回复。因此,任务导向的多轮对话省略恢复对于把握对话信息具有重要的作用。然而,目前现有的省略恢复方法存在许多问题。例如,现有技术中,针对多轮对话中文本的语义信息建模比较简单,但是多轮对话中短句相比较规范文本,表述更加随意,语义信息挖掘较规范文本更加困难;现有技术在解码时采用序列到序列的文本生成式方案,但是该方案存在传播误差和语义偏离的问题,错误的历史生成结果会影响未来的预测结果。

表1多轮对话省略样例表

表中,加粗部分表示缺失的内容,同时也代表对话的意图和主题是饭店订餐。

发明内容

本发明的目的在于提出一种基于门控拷贝和掩码的多轮对话省略恢复方法。

实现本发明目的的技术解决方案为:一种基于门控拷贝和掩码的多轮对话省略恢复方法,包括如下步骤:

步骤1,获取原始省略句和其上下文文本内容,其中原始省略句是当前对话轮次下需要填充的省略句,上下文文本是指包含了当前轮次以及之前所有轮次的对话语句集合;

步骤2,先对目标文本进行去噪、清洗,再使用分词工具对清洗后的文本进行分词,最后使用词典将词语序列映射为数字序列;

步骤3,使用预训练好的词向量文件来表示词语,若词语出现在词向量文件中,则用文件中相对应的向量来表示词语;若词语不在文件中,则使用随机初始化得到的向量来表示;

步骤4,基于门控机制,融合多头自注意力信息和Bi-GRU的门控编码器,对省略句词向量序列和上下文词向量序列进行语义编码,分别得到省略句和上下文的语义编码向量,以及省略句和上下文序列的状态向量;

步骤5,基于软掩码机制,结合省略句编码结果以及上一时刻省略句和上下文序列的状态向量,为省略句内每一个词设置权重,计算省略句的软掩码特征;

步骤6,利用掩码解码器,结合省略句的软掩码特征、上一时刻省略句的词向量表示以及省略句和上下文序列的状态向量,计算当前时刻省略句和上下文序列的状态向量,确定词表的概率分布;

步骤7,根据上下文编码结果、当前时刻省略句和上下文序列的状态向量以及省略句的软掩码特征,计算上下文词语的分值,再使用Softmax函数对分值进行归一化,得到上下文概率分布;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院电子学研究所苏州研究院,未经中国科学院电子学研究所苏州研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011366188.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top