[发明专利]一种跨文档长文本的分层融合阅读理解方法及系统有效
申请号: | 202010765021.8 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111858857B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 庞文君;杨猛;许红波 | 申请(专利权)人: | 前海企保科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 深圳市中科创为专利代理有限公司 44384 | 代理人: | 彭西洋;谢亮 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 文本 分层 融合 阅读 理解 方法 系统 | ||
1.一种跨文档长文本的分层融合阅读理解方法,其特征在于,包括步骤:
S1、通过问题、文档、问题类别编码模块分别对问题、文档、问题类别进行编码,得到对应问题表示、文档表示,其中所述文档表示包含问题关联信息;
S2、通过多步推理与多文档抽取模块,对问题表示、文档表示基于自注意力机制得到问题整合向量、文档整合向量,经多步推理得到问题关联的文档和段落分数的抽取表示;
S3、通过多文档长文本答案抽取多步融合模块,从文档和段落分数的抽取表示中经多步推理融合出一个最优的答案作为最终结果;
其中,步骤S1中所述问题类别经由问题分类模块如下表示:
输入的问题类别c,先将其表示成维度为nc的One-hot向量,通过随机赋值的嵌入矩阵得到问题类别的嵌入表示:
cQ=Wcc,
其中Wc为可训练学习的嵌入矩阵;
其中,步骤S1中所述问题、文档、问题类别编码模块采用如下方法获得问题整合向量、文档整合向量:
(1)将多文档D按照段落划分,设有N个文档,每个文档包含M个段落P,多文档Di={Pi1,Pi2,…,Pim},每个段落长度为lp,多文档表示成一个N×M×lp的文本序列;问题为Q,长度lQ;
(2)多文档和问题分别采用了最新的roberta预训练语言模型,能根据下游任务进行微调,表示如下:
uQ=roberta(wQ);
(3)计算文档和问题的关联表示:采用基于注意力的联合增广表示,该表示在计算注意力权重时,从文档中的词和问题中的词计算:
其中,Wl为线性变换矩阵,表示多文档的中i文档的第j个词,表示问题的第k个词,然后加权求和的方式的得到文档的问题关联表示:
(4)为了使两者结合,采用Fusion方法计算,并做了多种变换,体现两种表示之间的共性与差异性,计算方法如下:
经过编码模块分别得到了问题、文档以及问题的类别的表示:
其中,所述通过多步推理与多文档抽取模块,对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量,具体方法如下:
对步骤S1中文档表示、问题表示,做自注意力计算,得到自注意力整合向量表示,其中,文档整合向量为:
通过上面的方法利用问题表示uQ得到问题自注意力表示结合问题类别表示cQ,两者拼接得到问题整合向量rQ,即:
其中,步骤S2中,所述经多步推理得到问题关联的文档和段落分数的抽取表示的具体方法如下:
(1)采用门控制单元单向的GRU网络,每一步推理都有文档整合向量rD作为固定参照,问题的整合向量rQ为推理的初始状态,推理步骤如下,以第t步推理为例:
上述公式将问题的整合向量rQ作为GRU的网络的初始隐含状态量,即h0=rQ,Wqd为计算推理的隐含状态量与文档向量之间的相似度的双线性参数矩阵,将文档的整合向量作为输入;
(2)重复以上推理步骤,隐含状态量ht不断更新,每一步都结合上一层的隐含状态量对文档重新打分,经过T步推理后,得到最后文档的分数:
(3)按照步骤(1)(2)对每个文档的段落进行多步推理,N个文档进行N次推理,每次推理步数为T步,得到段落分数表示第i个文档的第j个段落分数。
2.根据权利要求1所述的跨文档长文本的分层融合阅读理解方法,其特征在于,在所述经多步推理得到问题关联的文档和段落分数的抽取表示中,多步推理涉及的模型定义如下损失,用以调整预测与实际文档及段落的差异:
其中,LD表示文档抽取损失,LP表示段落级别的损失,整体模型训练时将加入到联合损失中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于前海企保科技(深圳)有限公司,未经前海企保科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010765021.8/1.html,转载请声明来源钻瓜专利网。