[发明专利]一种基于深度学习的多片段阅读方法及装置在审
申请号: | 202111393735.1 | 申请日: | 2021-11-23 |
公开(公告)号: | CN114048316A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 陈德光;乔治锡;何雪锋;廖海;张倩莉;俞天均 | 申请(专利权)人: | 四川信息职业技术学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/08;G06F16/332 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 刘立春 |
地址: | 628000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 片段 阅读 方法 装置 | ||
本发明涉及数据处理技术领域,尤其涉及一种基于深度学习的多片段阅读方法及装置;本方法融合了改进的ALBERT及改进的答案边界预测法SBoundary。首先,在模型上半部分,对ALBERT进行改进,使其符合阅读理解模型。其次,对模型下半部分中的答案预测机制进行改进,使其在符合多片段答案提取的前提下,准确度较其它多片段答案预测机制具有一定的提升。本发明提出的ALBERT_SBoundary模型较其它模型在准确度具有明显提升的同时,还具有更小的参数量及相对较短的训练时间。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于深度学习的多片段阅读方法及装置。
背景技术
随着计算机软硬件的飞速发展以及人工智能时代到来,基于深度学习的各种应用方兴未艾。自然语言处理作为人工智能皇冠上的明珠,被誉为打通人机交互的最后一道桥梁,其在深度学习中发挥重要作用。阅读理解作为自然语言处理中文本抽取的重要应用之一,在搜索引擎、人机阅读比赛等现实应用中具有重要作用。近年来,基于阅读理解任务的研究在国内外获得了大量的关注,例如:国外的斯坦福大学、谷歌研究院等,国内的中科院、哈尔滨工业大学、搜狗等在自然语言处理领域均取得了不错的成绩。
现阶段,大多数阅读理解模型基于单片段文本问答进行,其中比较知名的语料库有SQuAD、TriviaQA、NarrativeQA、SearchQA以及CNN/DailMail等,而相应的模型有BERT、XLNET、RoBERT、ELECTRA、ALBERT、TinyBERT、MobileBERT等。在这些模型上,单片段语料阅读理解取得了令人满意的成绩。但是,比如搜索引擎中,其关键词或答案片段一般不止一个,若采用单片段问答模型进行搜索,结果可能不太理想。所以,在单片段阅读理解基础上,部分学者提出了多片段答案的阅读理解模型。其中较为有名的有BERT_Boundary、TbMS以及MTQA等模型。BERT_Boundary采用自己构建的语料库进行相关实验,最终取得了71.49的EM值以及超过84的F1值;经本发明实验验证,发现TbMS模型在多片段语料上性能与BERT_Boundary模型大体相同。MTQA擅长处理多类型文本语料库,但是对多片段文本处理性能较弱。以上三种模型在处理多片段语料时准确度有待提高的同时,模型的参数量与训练时间都有待于进一步减小。
对于上述问题有必要进行处理,因此,本文在前人工作的基础上提出了一种基于深度学习的多片段答案阅读理解模型。
发明内容
有鉴于此,本发明的目的是提供一种基于深度学习的多片段阅读方法,具体按以下步骤执行;
S1:收集多片段答案、问题与相应文本,制作语料库MuitSpan_NMU以及将DROP语料库中的多片段语料提取制作MuitSpan_DROP语料库。
S2:将问题与相应文本进行初始化向量表示,首先将文本与问题中的每个单词进行离散化表示为相应词项,继而由词项线性映射成对应的数字编号,即词项为向量中的一个项E(wi)(词项与项是一一映射关系)。
S3:将每个项E(wi)按照问题以及文本顺序进行顺序排列,得到的问题与文本的词序向量E(w),再将一组E(w)送入ALBERT_SBoundary中编码器中,可得到经过训练后的文本特征矩阵Hp。
S4:将所得到Hp的送入ALBERT_SBoundary中进行解码,其中SBoundary解码算法将Hp中的特征进行定位,用以得到文本相关的多个起始位置s与多个终止位置e对应的答案片段对。
S5:将预测答案与实际答案进行比较,此处采用边界定位与内容定位的交叉熵联合损失函数进行损失计算。将损失进行梯度回传,进而更新模型参数,经过若干次迭代,从而产生效果良好的模型检查点,保存该检查点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川信息职业技术学院,未经四川信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111393735.1/2.html,转载请声明来源钻瓜专利网。