[发明专利]一种基于深度学习的多片段阅读方法及装置在审

专利信息
申请号: 202111393735.1 申请日: 2021-11-23
公开(公告)号: CN114048316A 公开(公告)日: 2022-02-15
发明(设计)人: 陈德光;乔治锡;何雪锋;廖海;张倩莉;俞天均 申请(专利权)人: 四川信息职业技术学院
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06N3/08;G06F16/332
代理公司: 重庆百润洪知识产权代理有限公司 50219 代理人: 刘立春
地址: 628000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 片段 阅读 方法 装置
【权利要求书】:

1.一种基于深度学习的多片段阅读方法,其特征在于:具体按以下步骤执行:

S1:构建多片段阅读理解文本语料库MuitSpan_NMU,以及将公开语料库DROP中的多片段语料抽取组成新语料库MuitSpan_DROP;

S2:获取问题与文本所构成的序列,将该序列中的每个单词进行词项化处理,进而将词项进行Embedding处理,处理后的词项记为E(wi);

S3:将E(wi)按照“问题+文本”顺序的词项进行顺序排列,从而组合成词项序列E(wi);

S4:将词项序列送入改进的ALBERT中进行训练,通过改进后的ALBERT中的第一层Transformer编码器,得到问题以及文本的浅层特征表示;

S5:将问题及相应文本的浅层特征表示继续送入后续层的Transformer中,设共有n层,经过其余n-1层的Transformer机制后,在最后一层Transformer编码层中得到问题以及相关文本的深层特征表示Hn

S6:对问题以及文本的深层特征表示Hn,去除所有问题的深层特征表示,得到所有文本对应的深层特征表示Hp

S7:SBoundary算法根据设定的阈值在Hp上选出合适的候选开始答案片段位置,与候选结束答案片段位置,并去除明显不合理的候选答案片段;

S8:根据标签的开始边界与结束边界与SBoundary算法的预测结果进行比较,计算损失,从而梯度反向传播,继而训练出一个合适的网络模型;

S9:输入具体问题与对应的文本语料,让模型进行训练,从而给出预测答案。

2.根据权利要求1所述的一种基于深度学习的多片段阅读方法,其特征在于:在步骤S2中的Embedding过程,将Embedding size记为E,将Hidden size记为H,E与H的大小通常不相等,当HE时,在E的后面进行一个升维操作,让E达到H的维度,同时,E(wi)是由内容向量CE(wi)、对应的位置向量PE(wi)以及段向量SE(wi)组成,如式(1)所示:

E(wi)=CE(wi)+PE(wi)+SE(wi) 式(1)。

3.根据权利要求1所述的一种基于深度学习的多片段阅读方法,其特征在于:在步骤S4中,将多个词项序列X=[X1,X2,...,Xm]送入到Transformer中的编码器进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川信息职业技术学院,未经四川信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111393735.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top