[发明专利]一种自然语言生成及攻击检测方法、介质、装置及设备在审
申请号: | 202111297485.1 | 申请日: | 2021-11-04 |
公开(公告)号: | CN114021124A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 卜贺纯;王思宽;王铎;李晓雅;卢辰鑫;何豪杰 | 申请(专利权)人: | 北京香侬慧语科技有限责任公司 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F16/35;G06K9/62;G06F40/42 |
代理公司: | 北京国科程知识产权代理事务所(普通合伙) 11862 | 代理人: | 曹晓斐 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 生成 攻击 检测 方法 介质 装置 设备 | ||
1.一种自然语言生成及攻击检测方法,其特征在于,包括,
验证文本向量生成过程,分别根据包括多个源语言输入的验证集中的每个源语言输入,利用大规模多语言预训练模型生成对应输入文本向量,并且分别根据每个所述源语言输入利用被攻击自然语言生成模型得到的被攻击模型输出结果,利用所述大规模多语言预训练模型生成对应输出文本向量;
验证向量距离计算过程,计算与每个所述源语言输入对应的所述对应输入文本向量以及所述对应输出文本向量之间的向量距离,并计算得到所有所述向量距离的向量距离平均值;
待检测文本向量生成过程,分别将新的源语言输入及其利用所述被攻击自然语言生成模型得到的待检测输出结果推送到所述大规模多语言预训练模型,生成待检测输入文本向量以及待检测输出文本向量;
后门攻击触发器检测过程,计算所述待检测输入文本向量以及所述待检测输出文本向量之间的待检测向量距离,并根据所述待检测向量距离以及所述向量距离平均值对所述新的源语言输入是否含有后门攻击触发器进行检测;
其中,所述被攻击自然语言生成模型为已知被后门攻击的自然语言生成模型。
2.根据权利要求1所述的自然语言生成及攻击检测方法,其特征在于,还包括,
后门攻击触发器识别过程,若所述新的源语言输入含有所述后门攻击触发器,则将所述新的源语言输入的每个位置的内容轮流替换为同义内容,并分别利用所述被攻击自然语言生成模型根据替换后的源语言输入得到对应替换后输出结果,将与原所述待检测输出结果相差最大的所述替换后输出结果对应的被替换的内容,确定为后门攻击触发器。
3.根据权利要求2所述的自然语言生成及攻击检测方法,其特征在于,还包括,
后门攻击触发器解除过程,将含有所述后门攻击触发器的所述新的源语言输入中的所述后门攻击触发器进行删除,得到无攻击触发器新源语言输入,并根据所述无攻击触发器新源语言输入利用所述被攻击自然语言生成模型得到最终输出结果。
4.根据权利要求1-3任一所述的自然语言生成及攻击检测方法,其特征在于,
所述验证集中的所述多个源语言输入中的一半所述源语言输入含有后门攻击触发器。
5.根据权利要求1-3任一所述的自然语言生成及攻击检测方法,其特征在于,所述验证文本向量生成过程包括,
分别将所述每个源语言输入,推送到大规模多语言预训练模型得到所述每个源语言输入的句子长度个输入词级别向量,之后将与所述每个源语言输入对应的所有所述输入词级别向量进行最大池化操作,生成分别与所述每个源语言输入对应的唯一所述对应输入文本向量;以及,
分别将每个所述源语言输入利用被攻击自然语言生成模型得到的待检测输出结果,推送到所述大规模多语言预训练模型得到所述待检输出结果的测句子长度个输出词级别向量,之后将所有所述词级别向量进行最大池化操作,生成分别与所述每个源语言输入对应的唯一所述对应输出文本向量。
6.一种自然语言生成及攻击检测装置,其特征在于,包括,
验证文本向量生成模块,用于分别根据包括多个源语言输入的验证集中的每个源语言输入,利用大规模多语言预训练模型生成对应输入文本向量,并且分别根据每个所述源语言输入利用被攻击自然语言生成模型得到的被攻击模型输出结果,利用所述大规模多语言预训练模型生成对应输出文本向量;
验证向量距离计算模块,用于计算与每个所述源语言输入对应的所述对应输入文本向量以及所述对应输出文本向量之间的向量距离,并计算得到所有所述向量距离的向量距离平均值;
待检测文本向量生成模块,用于分别将新的源语言输入及其利用被攻击自然语言生成模型得到的待检测输出结果推送到所述大规模多语言预训练模型,生成待检测输入文本向量以及待检测输出文本向量;
后门攻击触发器检测模块,用于计算所述待检测输入文本向量以及所述待检测输出文本向量之间的待检测向量距离,并根据所述待检测向量距离以及所述向量距离平均值对所述新的源语言输入是否含有后门攻击触发器进行检测;
其中,所述被攻击自然语言生成模型为已知被后门攻击的自然语言生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京香侬慧语科技有限责任公司,未经北京香侬慧语科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111297485.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种健身用多功能椅
- 下一篇:一种基于继电保护测试仪的复合故障实时仿真系统