[发明专利]一种防范文本流次序变换攻击的方法有效
申请号: | 202110589788.4 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113312450B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李建欣;周号益;张帅;何铭睿;陈天宇 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F21/60;G06F40/126;G06F40/44;G06F40/58 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 防范 文本 次序 变换 攻击 方法 | ||
本发明通过人工智能领域的方法,实现了一种防范文本流次序变换攻击的方法。方法三个步骤;基于EM算法学习随机化序列概率分布;生成随机化序列密钥;方法的训练与部署需要搭建包括pytorch与依赖库的运行环境。通过EM算法学习出抵御攻击的最佳序列概率分布,最后使得针对流次序攻击的对抗样本无法准确攻击次序编码,达到防范文本流次序攻击的效果。本发明方法具有抵御攻击的性能最佳,对于其他的文本攻击同样能够减弱其攻击强度的技术效果。
技术领域
本发明涉及人工智能领域,尤其涉及一种防范文本流次序变换攻击的方法。
背景技术
如今自然语言处理已广泛应用到现实生活之中,例如机器翻译、自动摘要、问答系统等。而目前主流的自然语言处理模型例如Bert(Bidirectional EncoderRepresentation from Transformers)以及其变体等,皆基于Transformer模型改进而来,主要依赖于其高效的自注意力机制和长依赖对齐能力。然而自注意力机制无法单独捕捉序列中的次序信息,所以需要加入位置编码来完整的表征序列。但是这样的位置编码仅仅只是结合了次序信息后的三角函数,所以只需要破坏了位置编码中三角函数的线性性,便能够有效的破坏文本中的次序信息,以降低模型的有效性。
因此,目前主流的基于transformer改进而来的自然语言处理模型都需要利用三角函数的线性性来获得次序信息,但是这样的编码是会受到次序攻击的,并且我们通过研究与实验,目前已发现了几种针对次序编码生成对抗样本的方法,这样的对抗样本能够有效的降低模型有效性,并且不容易被人类察觉,其结论就是,目前需要一种防范此类攻击的手段来增强模型的安全性,这对于主流自然语言处理模型落地应用的安全问题有重大意义。
如上所述,目前主流的自然语言处理都加入了利用三角函数线性性的次序编码,如果针对次序编码进行攻击则能够十分轻易的降低自然语言处理模型的准确率,而目前还没有完全针对流次序攻击的抵御方法。
发明内容
为此,本发明首先提出一种防范文本流次序变换攻击的方法,包括以下三个步骤:
步骤一:基于随机化次序编码的自然语言处理模型:对于一个文本处理任务预处理后,随机生成随机生成序列,并使用随机生成序列作为生成次序编码的密钥,同时以此生成的次序编码作为记录位置信息的编码后,将所述随机生成序列进行基于EM算法的学习;
步骤二:基于EM算法学习随机化序列概率分布:对于针对流次序攻击的对抗样本,首先通过均匀分布的方式生成密钥随机序列,结合所述随机生成序列抵御对抗样本,如果对抗成功,则记录下此随机序列作为EM学习的统计数据,重复上述操作,得到一定量的成功抵御对抗样本的随机序列;这些随机序列通过频率统计在样本空间中呈现特定分布,最终作为EM算法的输入,通过EM算法学习混合高斯分布的参数,最后达成能够用此混合高斯分布来拟合所述特定分布的目标,即通过混合高斯分布来生成密钥次序编码,防范文本流次序攻击;
步骤三:生成随机化序列密钥:通过EM学习到的混合高斯分布来生成随机化序列密钥,并将其应用到随机化次序编码的自然语言处理模型中;
方法的训练与部署需要搭建包括pytorch与依赖库的运行环境。
所述预处理方法为:将普通的文本翻译训练数据作为自然语言处理模型的训练数据,将抗样本数据作为攻击自然语言处理模型的数据,对抗样本的生成方法为,在原始数据上加入与次序编码大小相同的取反数值,当自然语言处理模型在计算次序编码后,由于是直接加在注意力编码后,紧接着被扰动消除,最后位置信息丢失,达到了模型效果下降的效果,即攻击成功,成功攻击次序编码的样本即为对抗样本,作为测试的输入。
所述随机生成随机生成序列的方法以及保存位置信息的方法为:采用统一密钥的随机化次序再结合三角函数进行编码,利用统一的次序密钥,在通过密钥后得到正确的次序保存位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110589788.4/2.html,转载请声明来源钻瓜专利网。