[发明专利]一种时空特征融合的眼震视频分类方法及系统在审
申请号: | 202210914347.1 | 申请日: | 2022-08-01 |
公开(公告)号: | CN115482408A | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 赵晓丽;周浩军;方志军 | 申请(专利权)人: | 上海工程技术大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06T7/00;G06N3/04 |
代理公司: | 上海唯智赢专利代理事务所(普通合伙) 31293 | 代理人: | 刘朵朵 |
地址: | 201620 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时空 特征 融合 视频 分类 方法 系统 | ||
1.一种时空特征融合的眼震视频分类方法,其特征在于,该分类方法具体包括如下步骤:
(1)获取眼震视频信息,构建包括Spatial Transformer模块、Temporal Transformer模块,时空特征融合模块和Temporal-Spatial Transformer模块的眼震视频分类模型;
(2)对所述视频信息分别进行编码映射,通过所述Spatial Transformer模块和Temporal Transformer模块得到空间维度特征和时间维度特征;
(3)将所述空间维度特征和时间维度特征通过所述时空特征融合模块,得到融合的时空特征;
(4)将所述融合的时空特征输入所述Temporal-Spatial Transformer继续进行特征提取,获得特征图;
(5)将所述特征图通过全连接层和分类函数得到分类结果;
(6)基于该分类结果和真实标签,通过损失函数约束,以迭代训练所述眼震视频分类模型,直到损失函数收敛或达到预设迭代次数,保存当前眼震视频分类模型作为最终识别模型;
(7)将待分类眼震视频信息输入所述最终识别模型,得到该待分类眼震视频信息的类别。
2.根据权利要求1所述的一种时空特征融合的眼震视频分类方法,其特征在于,所述步骤2包括:
(1.1)对所述视频信息进行时间维度等幅采样,采样后输入所述SpatialTransformer,获取所述空间维度特征;
(1.2)对所述视频信进行空间维度等幅采样,采样后输入所述Temporal Transformer,获取所述时间维度特征。
3.根据权利要求1所述的一种时空特征融合的眼震视频分类方法,其特征在于,所述步骤3中时空特征融合模块包括:Piont-Wise卷积模块、GeLu激活函数模块及Sigmoid激活函数模块;具体过程包括:
(3.1)将所述空间维度特征和时间维度特征分别输入所述Piont-Wise卷积模块进行一次线性变换;
(3.2)将所述线性变换结果分别通过所述GeLu激活函数模块对其进行非线性激活;
(3.3)所述非线性激活结果分别再通过所述Piont-Wise卷积模块进行一次线性变换;
(3.4)将两个所述线性变换结果相加后,经由所述Sigmoid激活函数得到注意力权重图;
(3.5)将所述注意力权重图分别与所述空间维度特征和时间维度特征相乘,得到经过重标定后的特征,最后进行相加后得到所述融合后的时空特征。
4.根据权利要求4所述的一种时空特征融合的眼震视频分类方法,其特征在于,所述步骤3.4中在自注意力的计算阶段引入一个可以随网络训练而变化的相对位置表征编码,计算公式如下:
其中PEK代表可训练的相对位置表征编码在经过相对位置索引后的结果。
5.根据权利要求1所述的一种时空特征融合的眼震视频分类方法,其特征在于,所述步骤6中采用Accuracy、Precision、Recall作为评价指标,得到分类结果;
其中,TP、FP、TN、FN分别代表真阳性、假阳性、真阴性、假阴性的数量。
6.根据权利要求1所述的一种时空特征融合的眼震视频分类方法,其特征在于,所述步骤6损失函数采用的是自适应交叉熵损失,其公式如下:
其中:代表每个类别样本数量占总体样本数量的权重系数,由以下公式确定:
其中,Ni表示第i类的样本在数据集中的数量,样本总别类数为K。
7.一种时空特征融合的眼震视频分类系统,其特征在于,包括:
获取模块:用于获取眼震视频信息,构建包括Spatial Transformer模块、TemporalTransformer模块,时空特征融合模块和Temporal-Spatial Transformer模块的眼震视频分类模型;
编码模块:用于对所述视频信息分别进行编码映射,通过所述Spatial Transformer模块和Temporal Transformer模块得到空间维度特征和时间维度特征;
融合模块:用于将所述空间维度特征和时间维度特征通过所述时空特征融合模块,得到融合的时空特征;
提取模块:用于将所述融合的时空特征输入所述Temporal-Spatial Transformer继续进行特征提取,获得特征图;
识别模块:用于将所述特征图通过全连接层和分类函数得到分类结果;
判断模块:用于基于该分类结果和真实标签,通过损失函数约束,以迭代训练所述眼震视频分类模型,直到损失函数收敛或达到预设迭代次数,保存当前眼震视频分类模型作为最终识别模型;
验证模块:用于将待分类眼震视频信息输入所述最终识别模型,得到该待分类眼震视频信息的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海工程技术大学,未经上海工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210914347.1/1.html,转载请声明来源钻瓜专利网。