[发明专利]基于Dot Triple-Attention机制的选择式阅读理解方法和装置在审

专利信息
申请号: 202210975775.5 申请日: 2022-08-15
公开(公告)号: CN115345172A 公开(公告)日: 2022-11-15
发明(设计)人: 鹿文鹏;于瑞;马凤英;张维玉;郑超群;乔新晓 申请(专利权)人: 齐鲁工业大学
主分类号: G06F40/30 分类号: G06F40/30;G06N3/08
代理公司: 济南信达专利事务所有限公司 37100 代理人: 孙园园
地址: 250353 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 dot triple attention 机制 选择 阅读 理解 方法 装置
【权利要求书】:

1.一种基于Dot Triple-Attention机制的选择式阅读理解方法,其特征在于,该方法包括如下步骤:

S1、获取选择式阅读理解数据集:从网络上下载已经公开的选择式阅读理解数据集或者自行构建数据集;

S2、构建选择式阅读理解模型:基于Dot Triple-Attention机制构建选择式阅读理解模型;

S3、训练选择式阅读理解模型:在步骤S1所得到选择式阅读理解训练数据集上对步骤S2构建的选择式阅读理解模型进行训练。

2.根据权利要求1所述的基于Dot Triple-Attention机制的选择式阅读理解方法,其特征在于,所述步骤S2中构建选择式阅读理解模型的具体步骤如下:

S201、构建输入模块

针对数据集中的每一条数据,将文章序列,记为context;将问句序列,记为query;将所有候选选项记为response;根据正确答案,确定该条数据的标签,即,若正确答案为A,则记为1000,若正确答案为B,则记为0100,若正确答案为C,则记为0010,若正确答案为D,则记为0001;三个文本序列与标签,共同组成一条输入数据;

S202、构建预训练嵌入表示模块

预训练嵌入表示模块是利用预训练语言模型对S201中构建的输入数据进行嵌入编码操作,从而得到输入数据中的文章、问句和选项的嵌入表示,分别记为和S201中构建的输入包含三个文本序列,其中,文章序列单独使用一个编码模块,问句、选项序列共用一个编码模块;由于预训练语言模型本身包含多层编码网络,可根据不同的输入对象,选择不同层数的输出作为其嵌入表示;具体实施见下述公式:

其中,公式(1.1)表示使用预训练语言模型BERT对输入的文章序列context进行嵌入编码,下标n表示使用的BERT内部的网络层数,表示文章的嵌入表示;公式(1.2)表示使用预训练语言模型BERT对输入的问句序列query进行嵌入编码,下标t表示使用的BERT内部的网络层数,表示问句的嵌入表示;公式(1.3)同公式(1.2)基本一致,只是编码对象为选项response,表示选项的嵌入表示;

S203、构建特征过滤模块

使用自适应平均池化操作对文章、问句和选项的嵌入表示和进行特征过滤操作,得到相应的池化特征表示,即文章池化特征表示、问句池化特征表示和选项池化特征表示,分别记为和

S204、构建Dot Triple-Attention交互模块

该模块是一个可堆叠的模块;其接收特征过滤模块输出的文章池化特征表示、问句池化特征表示和选项池化特征表示,作为输入;第一层交互结构基于文章池化特征表示对问句池化特征表示和选项池化特征表示分别进行交互,以得到第一层问句交互结果和第一层选项交互结果,并将其传递给第二层交互结构,同时,使用一层全连接网络对文章池化特征表示进行映射,得到文章的第一层映射表示,并将其传递给第二层交互结构;第二层交互结构基于文章的第一层映射表示对第一层问句交互结果和第一层选项交互结果分别进行交互,以得到第二层问句交互结果和第二层选项交互结果,并将其传递给第三层交互结构,同时,使用一层全连接网络对文章的第一层映射表示进行映射,得到文章的第二层映射表示,并将其传递给第三层交互结构;以此类推,可以多次反复交互以生成第depth层问句交互结果、第depth层选项交互结果和文章的第depth层映射结果;最终将其传入特征聚合模块;

具体来说,第一层交互结构基于文章池化特征表示对问句池化特征表示和选项池化特征表示分别进行交互以得到第一层问句交互结果和第一层选项交互结果,记为和文章池化特征表示通过一层全连接网络映射后得到文章的第一层映射表示,记为具体实施见下述公式:

其中,和分别表示经过特征过滤模块处理后获得的文章池化特征表示、问句池化特征表示和选项池化特征表示;公式(2.1)表示使用基于文章池化特征表示对问句池化特征表示和选项池化特征表示进行交互操作;公式(2.2)表示使用基于文章池化特征表示对选项池化特征表示和问句池化特征表示进行交互操作;公式(2.3)表示使用全连接网络Dense1对文章池化特征表示进行映射操作;

进一步地,将第一层问句交互结果、第一层选项交互结果和文章的第一层映射表示,即和传递给第二层交互结构;第二层交互结构基于文章的第一层映射表示对第一层问句交互结果和第一层选项交互结果分别进行交互以得到第二层问句交互结果和第二层选项交互结果,记为和文章的第一层映射表示通过一层全连接网络映射后得到文章的第二层映射表示,记为具体实施见下述公式:

其中,公式(3.1)表示使用基于文章的第一层映射表示对第一层问句交互结果和第一层选项交互结果进行交互操作;公式(3.2)表示使用基于文章的第一层映射表示对第一层选项交互结果和第一层问句交互结果进行交互操作;公式(3.3)表示使用全连接网络Dense2对文章的第二层映射表示进行映射操作;

进一步地,将第二层问句交互结果、第二层选项交互结果和文章的第二层映射表示,即和传递给第三层交互结构;以此类推,可以多次反复交互以生成第depth层问句交互表示、第depth层选项交互表示和文章的第depth层映射表示;对于第depth层,其具体实施见下述公式:

其中,公式(4.1)表示使用基于文章的第depth-1层映射表示对第depth-1层问句交互结果和第depth-1层选项交互结果进行交互操作;公式(4.2)表示使用基于文章的第depth-1层映射表示对第depth-1层选项交互结果和第depth-1层问句交互结果进行交互操作;公式(4.3)表示使用全连接网络Densedepth对文章的第depth-1层映射表示进行映射操作。

进一步地,在公式(2.1)至公式(4.3)中所使用的均基于Dot Triple-Attention机制而实现;DotTriple-Attention算法的流程包含三个步骤,第一步为计算文章表示、问句表示和选项表示的相关性得分,第二步是对文章表示和选项表示做特征聚合操作,第三步是将第一步得到的相关性得分与第二步得到的特征聚合表示进行点积操作,从而得到交互结果;

S205、构建特征聚合模块

使用自适应平均池化操作对第depth层问句交互结果、第depth层选项交互结果和文章的第depth层映射表示进行特征过滤操作,并将过滤后的三个特征表示进行联接,从而得到最终的聚合特征表示,将其记为

S206、构建标签预测模块

步骤S205所得到的最终的聚合特征表示将作为输入,其经过一层维度为4、激活函数为softmax的全连接网络处理,从而得到各个候选选项作为正确答案的概率,本模块将概率最高的候选选项预测为正确答案;

当模型尚未进行训练时,需要进一步执行步骤S3进行训练,以优化模型参数;当模型训练完毕时,由步骤S206预测选项中的哪一个是正确答案。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210975775.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top