[发明专利]一种基于加速Transformer模型的视频分类方法在审
申请号: | 202111358049.0 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114048818A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 陈书界;彭小满;董建锋;包翠竹;刘宝龙;王勋 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/764;G06V10/774 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加速 transformer 模型 视频 分类 方法 | ||
1.一种基于加速Transformer模型的视频分类方法,其特征在于,包括:
(1)对原始视频进行预处理,得到每帧图像对应的缩略图和若干个图像块;
(2)将步骤(1)中得到的图像块和缩略图进行特征嵌入,得到图像块以及缩略图的D维特征嵌入向量;
(3)使用可学习的位置嵌入向量,编码步骤(2)中所有图像块的时空位置信息,得到含有位置信息的图像块特征嵌入向量;
(4)在视频向量序列的位首添加一个可学习的D维向量作为分类token,最终获得Transformer的输入序列;
(5)将步骤(4)中的输入序列经过Transformer模型的编码器得到融合了时空上下文依赖关系的输出特征序列,其中,Transformer模型使用加速线性自注意力模块:通过泰勒展开公式对Softmax函数进行线性展开,运用注意力权值矩阵的归一性和非负性得到精度极度近似于Softmax函数的线性函数,利用该线性函数以及矩阵乘法的结合律实现线性加速自注意力机制;
(6)分离出步骤(5)中输出特征序列的位首向量,该向量为分类token,将分类token向量转换为对应的类别,输出视频的类别。
2.根据权利要求1所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(1)中的预处理方法包括如下步骤:
(1-1)预先设定采样时间间隔,从视频中均匀提取k个视频帧;
(1-2)将步骤(1-1)中得到的每一帧图像分割成n个同等大小且互不重叠的图像块;
(1-3)对步骤(1-1)中得到的每一帧图像使用降采样获得对应的缩略图作为全局信息。
3.根据权利要求1所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(2)中的特征嵌入方法包括如下步骤:
(2-1)将视频帧所对应的缩略图和若干个图像块一维化;
(2-2)使用可训练的线性投影将图像块向量和缩略图向量投影至D维空间。
4.根据权利要求1所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(5)中使用逼近于Softmax函数的线性函数替换Softmax函数包括如下步骤:
(5-1)利用泰勒展开公式得到Softmax函数在x=0处的近似线性函数如下:
其中输入向量N是Transformer模型初始输入序列的长度,IN是N阶单位矩阵,1N是长度为N的全1向量;
(5-2)使用步骤(5-1)获得的近似线性函数替代Softmax函数,Transformer模型的自注意力机制的计算表达式变换为如下:
其中分别表示输入序列的查询特征、关键字特征以及字值特征,dk为Q,K,V的特征维度,为近似Softmax矩阵,常数C为条件因子;
(5-3)根据步骤(5-2)的近似Softmax矩阵应当满足权值矩阵的特性:归一化和非负性,计算得到步骤(5-2)中常数C的具体范围为C≥2且其中qi表示矩阵Q中的第i列向量;
(5-4)将代入步骤(5-1)中,得到权值矩阵表达式如下:
将权值矩阵表达式代入步骤(5-2)中,并进行化简得到近似Softmax多项式函数的自注意力机制的表达式如下:
其中vj表示矩阵V的第j列向量。
5.根据权利要求4所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(5-3)中,选定常数C的值为C=dk。
6.根据权利要求1所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(6)中将分类token向量转化为对应类别的方法包括如下步骤:
(6-1)对该分类token向量使用层归一化;
(6-2)将步骤(6-1)中归一化后的向量经过一个全连接网络以及Softmax层,得到每个类别的概率分布;根据概率分布,得到当前预测的视频类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111358049.0/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法