首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种跨文档长文本的分层融合阅读理解方法及系统有效

申请号：	202010765021.8	申请日：	2020-07-31
公开（公告）号：	CN111858857B	公开（公告）日：	2021-03-30
发明（设计）人：	庞文君;杨猛;许红波	申请（专利权）人：	前海企保科技（深圳）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06N3/04;G06N3/08
代理公司：	深圳市中科创为专利代理有限公司 44384	代理人：	彭西洋;谢亮
地址：	518000 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文档文本分层融合阅读理解方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种跨文档长文本的分层融合阅读理解方法，其特征在于，包括步骤：

S1、通过问题、文档、问题类别编码模块分别对问题、文档、问题类别进行编码，得到对应问题表示、文档表示，其中所述文档表示包含问题关联信息；

S2、通过多步推理与多文档抽取模块，对问题表示、文档表示基于自注意力机制得到问题整合向量、文档整合向量，经多步推理得到问题关联的文档和段落分数的抽取表示；

S3、通过多文档长文本答案抽取多步融合模块，从文档和段落分数的抽取表示中经多步推理融合出一个最优的答案作为最终结果；

其中，步骤S1中所述问题类别经由问题分类模块如下表示：

输入的问题类别c，先将其表示成维度为n_c的One-hot向量，通过随机赋值的嵌入矩阵得到问题类别的嵌入表示：

c^Q＝W_cc，

其中W_c为可训练学习的嵌入矩阵；

其中，步骤S1中所述问题、文档、问题类别编码模块采用如下方法获得问题整合向量、文档整合向量：

(1)将多文档D按照段落划分，设有N个文档，每个文档包含M个段落P，多文档D_i＝{P_i1，P_i2，…，P_im}，每个段落长度为l_p，多文档表示成一个N×M×l_p的文本序列；问题为Q，长度l_Q；

(2)多文档和问题分别采用了最新的roberta预训练语言模型，能根据下游任务进行微调，表示如下：

u_Q＝roberta(w_Q)；

(3)计算文档和问题的关联表示：采用基于注意力的联合增广表示，该表示在计算注意力权重时，从文档中的词和问题中的词计算：

其中，W_l为线性变换矩阵，表示多文档的中i文档的第j个词，表示问题的第k个词，然后加权求和的方式的得到文档的问题关联表示：

(4)为了使两者结合，采用Fusion方法计算，并做了多种变换，体现两种表示之间的共性与差异性，计算方法如下：

经过编码模块分别得到了问题、文档以及问题的类别的表示：

其中，所述通过多步推理与多文档抽取模块，对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量，具体方法如下：

对步骤S1中文档表示、问题表示，做自注意力计算，得到自注意力整合向量表示，其中，文档整合向量为：

通过上面的方法利用问题表示u^Q得到问题自注意力表示结合问题类别表示c^Q，两者拼接得到问题整合向量r^Q，即：

其中，步骤S2中，所述经多步推理得到问题关联的文档和段落分数的抽取表示的具体方法如下：

(1)采用门控制单元单向的GRU网络，每一步推理都有文档整合向量r^D作为固定参照，问题的整合向量r^Q为推理的初始状态，推理步骤如下，以第t步推理为例：

上述公式将问题的整合向量r^Q作为GRU的网络的初始隐含状态量，即h₀＝r^Q，W^qd为计算推理的隐含状态量与文档向量之间的相似度的双线性参数矩阵，将文档的整合向量作为输入；

(2)重复以上推理步骤，隐含状态量h_t不断更新，每一步都结合上一层的隐含状态量对文档重新打分，经过T步推理后，得到最后文档的分数：

(3)按照步骤(1)(2)对每个文档的段落进行多步推理，N个文档进行N次推理，每次推理步数为T步，得到段落分数表示第i个文档的第j个段落分数。

2.根据权利要求1所述的跨文档长文本的分层融合阅读理解方法，其特征在于，在所述经多步推理得到问题关联的文档和段落分数的抽取表示中，多步推理涉及的模型定义如下损失，用以调整预测与实际文档及段落的差异：

其中，L_D表示文档抽取损失，L_P表示段落级别的损失，整体模型训练时将加入到联合损失中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于前海企保科技（深圳）有限公司，未经前海企保科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010765021.8/1.html，转载请声明来源钻瓜专利网。

上一篇：利用钢材酸洗废液和含铝废料制备聚合氯化铝铁混凝剂的方法
下一篇：一种水利工程用河水取样装置

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top