[发明专利]多时域多特征结合的Deepfake视频检测方法及系统有效
申请号: | 202110207530.3 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112927202B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 胡永健;余泽琼;刘琲贝;王宇飞 | 申请(专利权)人: | 华南理工大学;中新国际联合研究院 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/11;G06T7/90;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多时 特征 结合 deepfake 视频 检测 方法 系统 | ||
1.一种多时域多特征结合的Deepfake视频检测方法,其特征在于,包括下述步骤:
划分数据集,并将各个数据集的视频解码为帧序列,并设定间隔进行采样,保存为帧序列S;
检测帧序列S中各帧的人脸区域,作为特征提取区域;
将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB;
对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数,将三维DCT系数输入频域特征提取网络进行预测,得到DCT卷积特征FDCT,所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层;
构建短时域模块STB,所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值,输入VGG16网络进行梯度特征学习,得到梯度特征Fgrad;
将同一帧人脸区域的颜色卷积特征FRGB、DCT卷积特征FDCT和梯度特征Fgrad进行特征融合获得单帧特征;
构建长时域模块,所述长时域模块包括多层LSTM层和全连接层;
分别计算待检测视频保存的连续多帧图像,获得多个单帧特征,输入长时域模块捕获远程时间上的特征上下文;
采用训练后的长时域模块LTB对待检测视频帧进行预测分类,判断视频是否为Deepfake视频。
2.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB,具体步骤包括:
将特征提取区域调整为统一大小的RGB图像,并进行归一化处理,作为特征检测区域的颜色特征数据,选取Xception网络的最后一层平均池化层输出张量作为学习到的颜色卷积特征FRGB。
3.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数,具体步骤包括:
读取特征提取区域的RGB三通道图像,获取特征提取区域的YUV三通道图像,得到IY,IU,IV的图像,对YUV三通道图像进行不规则大小m1×m2的分块切分,其中m1是指将图像横坐标切分为m1块,m2是指将图像纵坐标切分为m2块,对IY,IU,IV图像的m1×m2个分块分别做二维DCT变换,将YUV三通道的各个分块的DCT变换幅度频谱按照原来分块位置进行拼接得到三维DCT系数。
4.根据权利要求3所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述二维DCT变换具体计算公式为:
其中,(i,j)表示图像中像素点的二维坐标,f(i,j)表示该坐标下图像的像素值,N表示图像的宽,F(u,v)为提取的DCT系数。
5.根据权利要求3所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述二维DCT变换采用矩阵处理方式,具体计算公式为:
F=AfAT
其中,F表示DCT系数矩阵,f表示图像像素矩阵,(i,j)表示图像中像素点的二维坐标,N表示图像的宽。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;中新国际联合研究院,未经华南理工大学;中新国际联合研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110207530.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种针对氢冷发电机氢气纯度下降快的处理方法
- 下一篇:撑开式拨动轮椅