[发明专利]基于特征融合的视频分类方法、装置、设备及介质在审
申请号: | 202310611223.0 | 申请日: | 2023-05-25 |
公开(公告)号: | CN116645630A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 舒畅;陈又新 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/80;G06V10/40;G06V30/19;G06V30/413;G06F40/289 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 范腊梅 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 融合 视频 分类 方法 装置 设备 介质 | ||
1.一种基于特征融合的视频分类方法,其特征在于,所述方法包括:
生成待分类视频的图像序列,依次计算所述图像序列中每张图像的归一化图像注意力权重,利用所述归一化图像注意力权重生成每张所述图像对应的加权后的图像特征向量;
拼接所有加权后的图像特征向量,得到所述待分类视频的视频特征矩阵,计算所述视频特征矩阵的归一化视频注意力权重,利用所述归一化视频注意力权重生成所述待分类视频的视频特征向量;
生成所述待分类视频对应的文本特征矩阵,计算所述文本特征矩阵的归一化文本注意力权重,利用所述归一化文本注意力权重生成所述文本内容对应的加权后的文本特征向量;
将所述视频特征向量及所述文本特征向量进行叠加,得到融合特征矩阵,计算所述融合特征矩阵的归一化综合权重,利用所述归一化综合权重生成所述待分类视频的融合特征向量;
利用预先完成训练的分类器,根据所述融合特征向量对所述待分类视频进行分类。
2.如权利要求1所述的基于特征融合的视频分类方法,其特征在于,所述依次计算所述图像序列中每张图像的归一化图像注意力权重,包括:
对所述图像序列中每张图像进行图像特征提取,得到每张所述图像的图像特征矩阵;
根据所述图像特征矩阵每列像素值的大小对所述图像特征矩阵进行排序;
利用预先训练好的全连接层将排序后的图像特征矩阵转换为一维图像特征向量;
利用预设的激活函数对所述一维图像特征向量进行激活和归一化处理,得到每张所述图像的归一化图像注意力权重。
3.如权利要求2所述的基于特征融合的视频分类方法,其特征在于,所述利用预设的激活函数对所述一维图像特征向量进行激活和归一化处理,得到每张所述图像的归一化图像注意力权重,包括:
将每张所述图像的一维图像特征向量的像素之和作为对应图像的特征权重系数;
对每张所述图像的特征权重系数进行非线性激活;
对非线性激活后的特征权重系数进行线性归一化,得到每张图像对应的归一化图像注意力权重。
4.如权利要求2所述的基于特征融合的视频分类方法,其特征在于,所述利用所述归一化图像注意力权重生成每张所述图像对应的加权后的图像特征向量,包括:
将所述归一化图像注意力权重与对应图像的排序后的图像特征矩阵相乘,得到加权后的图像特征矩阵;
将加权后的图像特征矩阵中每列的数值求和,得到加权后的图像特征向量。
5.如权利要求1所述的基于特征融合的视频分类方法,其特征在于,所述生成所述待分类视频对应的文本特征矩阵,包括:
识别所述待分类视频的文本内容,对所述文本内容进行分句,得到文本分句集;
提取所述文本分句集中每个分句的分句文本特征,得到每个所述分句的分句文本特征矩阵;
依次计算每个所述分句文本特征矩阵的归一化句子注意力权重,利用所述归一化句子注意力权重生成每个所述分句的加权后的句子特征向量;
拼接所有加权后的句子特征向量,得到所述待分类视频的文本特征矩阵。
6.如权利要求1所述的基于特征融合的视频分类方法,其特征在于,所述生成待分类视频的图像序列,包括:
对所述待分类视频进行分帧操作,得到视频帧集合;
根据预设的视频帧抽取频率,按照时间先后顺序从所述视频帧集合中挑选视频帧组成所述图像序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310611223.0/1.html,转载请声明来源钻瓜专利网。