[发明专利]基于强化学习的黑盒视频对抗样本生成方法及评价方法有效
申请号: | 202211111492.2 | 申请日: | 2022-09-13 |
公开(公告)号: | CN115311521B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 胡超;余瑞实;施鹤远;湛誉;梁锴;刘荣凯 | 申请(专利权)人: | 中南大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/776;G06V10/771;G06V20/40 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 黑盒 视频 对抗 样本 生成 方法 评价 | ||
1.一种基于强化学习的黑盒视频对抗样本生成方法,包括如下步骤:
S1.获取原始视频数据;
S2.对步骤S1获取的原始视频数据,采用滑动窗口进行分割,得到包括若干个视频块的视频块集合;
S3.对步骤S2得到的视频块集合插入位置信息,得到带有位置信息的视频块集合;
S4.对步骤S3得到的带有位置信息的视频块集合,采用自注意力机制进行视觉特征提取,得到各个视频块的特征;具体包括如下步骤:
将步骤S3得到的带有位置信息的视频块集合F*,输入到带有自注意力机制的视觉特征提取器中,生成请求向量Q、关键向量K和值向量V;其中,生成请求向量Q的计算式为Q=WQ·F*,生成请求向量K的计算式为K=WK·F*,生成请求向量V的计算式为V=WF·F*;
对每一个视频块通过查询Q、K、V矩阵可得到对应的Qa、Ka和Va;将请求向量Qa与其他所有视频块的关键向量的转置KT进行点积运算,并采用softmax函数处理点积运算结果,得到自注意力权重Wa为其中dk为视频块特征向量的维度;
将自注意力权重Wa与对应的视频块的值向量Va相乘,得到包含自注意力的向量Za为Za=Wa·Va;包含自注意力的向量Za就是视频块va的特征;
S5.根据步骤S4得到的各个视频块的特征,对带有位置信息的视频块集合进行提取,得到关键视频块集合;具体包括如下步骤:
将得到的各个视频块的特征Za,通过输出维度为n维的全连接层进行降维,然后再将得到的n维向量输入到sigmoid函数,得到判别分数集合P为P={p1,p2,...,pn},其中pa为第a个视频块的关键性分数;
对判别分数集合P中的元素进行降序排序,并提取排序后的前m个元素所对应的视频块作为关键视频块集合Vc为Vc={vc1,vc2,...,vcm};
S6.对步骤S5得到的关键视频块集合进行迭代处理,从而得到估计梯度;具体包括如下步骤:
设定对步骤S5得到的关键视频块集合Vc={vc1,vc2,...,vcm}添加的对抗性扰动为g;设定能够使得目标视频系统误判的有效对抗性扰动为g*;其中,g={g1,g2,...,gm},
将对抗性扰动g和有效对抗性扰动g*之间的差异,表示为l(g)=-<g,g*>,将对抗性扰动g和有效对抗性扰动g*之间的差异,表示为l(g)=-<g,g*>,其中<a,b>定义为a和b的余弦相似度,计算式为
通过l(g,g*)中的梯度下降来使得g不断接近g*,表示为g'=g-ηΔ,其中g'为更新后的对抗性扰动g,g为更新前的对抗性扰动,η为梯度下降的步长,Δ为下降方向;
通过对称采样并迭代目标视频系统,实现对g进行梯度估计;下降方向Δ的表达式为其中δ为估计下降方向时,采样过程中调整对抗性扰动g变化幅度的参数;π为随机的候选方向,且π∈RT×W×H×C;经过两次迭代计算得到下降方向Δ,并采用得到的下降方向Δ更新对抗性扰动,得到估计梯度;
S7.根据步骤S6得到的估计梯度,生成对抗样本值,并构建对应的损失函数;具体包括如下步骤:
步骤S6得到的第i轮的估计梯度后,将估计梯度g叠加到第i-1轮迭代中的对抗样本中,生成第i轮的对抗样本为其中clip()为剪裁函数,用于将括号内的值限定在设定的值域范围内;h为对抗样本梯度下降的步长;sign()为符号函数,用于获取估计梯度的方向;
将生成的第i轮的对抗样本输入到目标视频系统,得到目标视频系统的返回值,通过返回值得到第i轮的对抗样本所对应的标签yp;采用交叉损失熵函数表示本次对抗样本标签与目标标签之间的损失Ltarget:
式中yt为预期的目标标签;为条件输入下得到真实标签的概率,表示为为条件输入下得到预期标签的概率,表示为
采用如下算式作为整体损失函数Rtotal,从而对迭代过程进行整体优化:
Rtotal=Ratt+Rper
式中Ratt为对关键视频块对抗性扰动和所有视频块对抗性扰动产生的对抗损失奖励,且为对关键视频块添加对抗性扰动的对抗损失,为对所有视频块添加对抗性扰动的对抗损失;Rper为对抗性扰动增量奖励,且Rper=Perfull-Perpart,Perfull为对所有视频块扰动生成的对抗性扰动增量,Perpart为对关键视频块扰动生成的对抗性扰动增量;
S8.将对抗样本值输入到目标视频模型中获取目标视频模型的返回值,并根据返回值和损失函数的值,得到最终构建的对抗样本;具体包括如下步骤:
将得到的对抗样本输入到目标视频模型并获取对应的返回值,得到返回值对应的标签,并进行判定:
若返回值对应的标签与目标生成标签一致,则认为迭代成功,将当前的对抗样本作为最终构建的对抗样本;
若返回值对应的标签与目标生成标签不一致,则继续进行迭代,直至满足迭代终止的条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211111492.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于纺织机械的自动供油装置
- 下一篇:一种带光学编码器的电机结构