[发明专利]注意力范围自适应方法、系统及计算机可读存储介质在审
申请号: | 202110340866.7 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113076726A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 曾庆威;沈文枫;艾文伟;赵时旻;黄天印;毕湘利 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/211 |
代理公司: | 上海梵恒知识产权代理事务所(普通合伙) 31357 | 代理人: | 李文凤 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注意力 范围 自适应 方法 系统 计算机 可读 存储 介质 | ||
本发明提供了注意力范围自适应方法、系统及计算机可读存储介质,其中注意力范围自适应方法,包括以下步骤:S1、通过缓存机制保存模型的隐向量序列,设置保存的最大长度;S2、添加掩盖函数控制模型的注意力范围;根据所述掩盖函数的最长范围确定参与模型计算的隐向量序列长度;S3、训练所述掩盖函数,并通过训练后的掩盖函数确定模型的注意力范围。本注意力范围自适应方法、系统及计算机可读存储介质,不仅可以调节当前层注意力头的注意力范围,还可以调节模型其他层注意力头的注意力范围,在保证让每层的学习到最佳的注意力范围,同时让模型保持最佳的注意力范围。
技术领域
本发明涉及注意力范围自适应技术领域,尤其涉及注意力范围自适应方法、系统及计算机可读存储介质。
背景技术
自从“attention is all your need”提出以来,transformer已成为自然语言处理的主要模型,运用在许多任务上,但其结构需要对输入序列设置一个固定的长度,默认长度是512。如果文本序列长度短于固定长度,可以通过填充的方式来解决。如果序列长度超过固定长度,有两种处理方式,一种是增加输入序列长度,但transformer每个字符都需要计算该字符与其他所有字符注意力,导致所需的计算和显存开销与输入序列的长度成二次方,使得 Transformer在序列长度上很难扩展,难以作为处理上千字符输入,模型基本上1k个字符就是上限了。然而对于字符级的语言模型来说,上千个字符的输入是比较常见的。
另一种处理方式,就是将文本划分为多个片度。在划分片段的时候,没有考虑句子的自然边界,而是根据固定的长度来划分序列,导致分割出来的片段在语义上是不完整的。在训练的时候只能对每个片段单独训练,片段之间没有联系导致每个字符之间最长的依赖关系取决于片段的长度,但不同字符所关联的上下文长度是不同的,有的字符关联的上下文长度远远超过段度长度。简单的将输入文本切分为固定长度不能让模型看到正确的上下文,构建更好的表征。
为了让模型可以关联更长上下文,transformer xl设计memory机制缓存上一个段的隐向量序列,让每个片段关联前一个片段,建立更长的上下文依赖。
通过memery保存的多个片段可以让字符关联更长的上下文,但在过往的实验中显示上层token关联上下文的范围比下层token关联上下文的范围,增大memory保存序列长度只是满足了上层的注意力范围,却严重增加计算和显存开销。同时transformer的注意力机制会做多头注意力(multi-head)处理,“adaptive(引用)”发现每层的注意力头的注意力范围是不同的,为了让多头注意力学习到最优的注意力关联,让其自己决定需要关注多长的内容,让模型下层关注较少的上下文,模型上层能够关注更长的上下文,从而减少计算量。
Transformer的结构上是由多个注意力层排列组成,不同层之间的注意力范围是相互联系的,每层的注意力范围都是随层数的累加。修改某层的注意力范围会影响其他层的注意力范围,例如下层注意力范围的减少会让上层的注意力范围变相的减少。只是让每层获得最佳的注意力范围并不能让所有层都达到最佳的注意力范围。
发明内容
有鉴于此,本发明要解决的技术问题是提供注意力范围自适应方法、系统及计算机可读存储介质,不仅可以调节当前层注意力头的注意力范围,还可以调节模型其他层注意力头的注意力范围,在保证让每层的学习到最佳的注意力范围,同时让模型保持最佳的注意力范围。
本发明的技术方案是这样实现的:
一种注意力范围自适应方法,包括以下步骤:
S1、通过缓存机制保存模型的隐向量序列,设置保存的最大长度;
S2、添加掩盖函数控制模型的注意力范围;根据所述掩盖函数的最长范围确定参与模型计算的隐向量序列长度;
S3、训练所述掩盖函数,并通过训练后的掩盖函数确定模型的注意力范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110340866.7/2.html,转载请声明来源钻瓜专利网。