[发明专利]一种基于深度学习的多片段阅读方法及装置在审

申请号：	202111393735.1	申请日：	2021-11-23
公开（公告）号：	CN114048316A	公开（公告）日：	2022-02-15
发明（设计）人：	陈德光;乔治锡;何雪锋;廖海;张倩莉;俞天均	申请（专利权）人：	四川信息职业技术学院
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06N3/08;G06F16/332
代理公司：	重庆百润洪知识产权代理有限公司 50219	代理人：	刘立春
地址：	628000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习片段阅读方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的多片段阅读方法，其特征在于：具体按以下步骤执行：

S₁:构建多片段阅读理解文本语料库MuitSpan_NMU，以及将公开语料库DROP中的多片段语料抽取组成新语料库MuitSpan_DROP；

S₂:获取问题与文本所构成的序列，将该序列中的每个单词进行词项化处理，进而将词项进行Embedding处理，处理后的词项记为E(w_i)；

S₃:将E(w_i)按照“问题+文本”顺序的词项进行顺序排列，从而组合成词项序列E(w_i)；

S₄:将词项序列送入改进的ALBERT中进行训练，通过改进后的ALBERT中的第一层Transformer编码器，得到问题以及文本的浅层特征表示；

S₅:将问题及相应文本的浅层特征表示继续送入后续层的Transformer中，设共有n层，经过其余n-1层的Transformer机制后，在最后一层Transformer编码层中得到问题以及相关文本的深层特征表示H_n；

S₆:对问题以及文本的深层特征表示H_n，去除所有问题的深层特征表示，得到所有文本对应的深层特征表示H^p；

S₇:SBoundary算法根据设定的阈值在H^p上选出合适的候选开始答案片段位置，与候选结束答案片段位置，并去除明显不合理的候选答案片段；

S₈:根据标签的开始边界与结束边界与SBoundary算法的预测结果进行比较，计算损失，从而梯度反向传播，继而训练出一个合适的网络模型；

S₉:输入具体问题与对应的文本语料，让模型进行训练，从而给出预测答案。

2.根据权利要求1所述的一种基于深度学习的多片段阅读方法，其特征在于：在步骤S₂中的Embedding过程，将Embedding size记为E，将Hidden size记为H，E与H的大小通常不相等，当HE时，在E的后面进行一个升维操作，让E达到H的维度，同时，E(w_i)是由内容向量CE(w_i)、对应的位置向量PE(w_i)以及段向量SE(w_i)组成，如式(1)所示：

E(w_i)＝CE(w_i)+PE(w_i)+SE(w_i) 式(1)。

3.根据权利要求1所述的一种基于深度学习的多片段阅读方法，其特征在于：在步骤S₄中，将多个词项序列X＝[X1,X2,...,Xm]送入到Transformer中的编码器进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川信息职业技术学院，未经四川信息职业技术学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111393735.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的多片段阅读方法及装置在审

专利文献下载