[发明专利]一种防范文本流次序变换攻击的方法有效

专利信息
申请号: 202110589788.4 申请日: 2021-05-28
公开(公告)号: CN113312450B 公开(公告)日: 2022-05-31
发明(设计)人: 李建欣;周号益;张帅;何铭睿;陈天宇 申请(专利权)人: 北京航空航天大学
主分类号: G06F16/33 分类号: G06F16/33;G06F21/60;G06F40/126;G06F40/44;G06F40/58
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 防范 文本 次序 变换 攻击 方法
【权利要求书】:

1.一种防范文本流次序变换攻击的方法,其特征在于:包括以下三个步骤:

步骤一:基于随机化次序编码的自然语言处理模型:对于一个文本处理任务预处理后,随机生成随机生成序列,并使用随机生成序列作为生成次序编码的密钥,同时以此生成的次序编码作为记录位置信息的编码后,将所述随机生成序列进行基于EM算法的学习;

步骤二:基于EM算法学习随机化序列概率分布:对于针对流次序攻击的对抗样本,首先通过均匀分布的方式生成密钥随机序列,结合所述随机生成序列抵御对抗样本,如果对抗成功,则记录下此随机序列作为EM学习的统计数据,重复上述操作,得到一定量的成功抵御对抗样本的随机序列;这些随机序列通过频率统计在样本空间中呈现特定分布,最终作为EM算法的输入,通过EM算法学习混合高斯分布的参数,最后达成能够用此混合高斯分布来拟合所述特定分布的目标,即通过混合高斯分布来生成密钥次序编码,防范文本流次序攻击;

步骤三:生成随机化序列密钥:通过EM学习到的混合高斯分布来生成随机化序列密钥,并将其输出到随机化次序编码的自然语言处理模型中;

方法的训练与部署需要搭建包括pytorch与依赖库的运行环境。

2.如权利要求1所述的一种防范文本流次序变换攻击的方法,其特征在于:所述预处理方法为:将普通的文本翻译训练数据作为自然语言处理模型的训练数据,将抗样本数据作为攻击自然语言处理模型的数据,对抗样本的生成方法为,在原始数据上加入与次序编码大小相同的取反数值,当自然语言处理模型在计算次序编码后,由于是直接加在注意力编码后,紧接着被扰动消除,最后位置信息丢失,达到了模型效果下降的效果,即攻击成功,成功攻击次序编码的样本即为对抗样本,作为测试的输入。

3.如权利要求2所述的一种防范文本流次序变换攻击的方法,其特征在于:所述随机生成随机生成序列的方法以及保存位置信息的方法为:采用统一密钥的随机化次序再结合三角函数进行编码,利用统一的次序密钥,在通过密钥后得到正确的次序保存位置信息。

4.如权利要求3所述的一种防范文本流次序变换攻击的方法,其特征在于:所述生成随机化序列密钥的方法为:首先在模型训练过程中,加载此密钥作为生成次序编码中次序的部分,

f(pos)的部分是密钥代表的位置,在测试时也采用同样的密钥所代表的位置来进行次序编码的生成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110589788.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top