[发明专利]一种基于代理度量模型的弱监督视频行为定位方法有效
申请号: | 202110527929.X | 申请日: | 2021-05-14 |
公开(公告)号: | CN113420592B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 张宇;米思娅;陈子涵 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/77;G06V10/80;G06V10/764;G06V10/774 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 程洁 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 代理 度量 模型 监督 视频 行为 定位 方法 | ||
1.一种基于代理度量模型的弱监督视频行为定位方法,其特征在于:包括以下步骤:
步骤一:分离并提取训练集视频的特征向量,将未修剪的视频V看作是片段的集合,其中每个片段包含相等数量的帧,将视频表示为n个片段其中k代表视频的序号。
步骤二:特征提取后,计算出统一的嵌入形式:给定视频Vk,将每个片段的特征向量馈入由一个全连接层,一个ReLU激活层和一个Dropout层组成的模块,得到嵌入特征向量,所述嵌入特征向量表示为:
Xemb=fembed(X,Θembed)#(1)
其中fembed表示嵌入网络,Θembed表示该网络中的超参数。
步骤三:应用Class Activation Sequence模块计算视频中每个嵌入特征向量的片段级动作分类评分,所述片级动作分类评分表示为:
其中gcas表示带有超参数的CAS线性分类器。
步骤四:计算整个视频的动作分类评分(CAS分类得分),用softmax函数计算视频包含各个动作分类的可能性,所述动作分类评分表示为:
其中C表示动作类的数量,pc表示动作类c的Kact个最高片段分类评分的平均值。Kact是一个表示伪动作类片段数量的超参数。
步骤五:从视频中筛选出伪动作段和伪背景段,计算第t个视频Vt的第n段包含需要定位的动作可能性,动作可能性得分表示为:
p(Vt,n)=dropout(||Xt,n||)#(4)
其中,Xt,n表示在步骤二中计算得到的第t个视频的第n段的嵌入特征向量,||·||表示L2范数函数。将视频中有最高动作可能性得分的Kact个片段作为伪动作段,记为Aact。将视频中有最低动作可能性得分的Kbkg个片段作为伪背景段,记为Abkg。
步骤六:训练动作代理向量{P1,P2,…,PC},它们组成动作代理图P,在视频的伪动作段中选出含有相应动作最高CAS分类得分的Ktopa个片段进行训练。如果一个视频V的动作标签集中包含动作c,那么它对于动作c的动作中心向量计算方式如下:
其中表示动作c在第t个片段的CAS分类得分,Xt,i表示第t个片段的嵌入特征向量。由于同一个动作在不同的视频中会有不同的表现形式,所以动作代理向量是整个数据动作特征的综合,所述动作代理向量计算方式表示为:
其中nc表示带有动作c标签的视频数量。设置一个参数ε,当训练动作代理向量Pc的视频数量大于ε时,才会认为Pc是有效的。
步骤七:根据步骤六计算出的动作代理向量对视频中的动作片段进行动作聚类和背景分类。对于训练视频中的一个片段X,若X属于伪动作段,那么设置动作聚类损失函数Lact进行聚类,若X属于伪背景段,则跳到步骤八。若一个动作类k在X的标签集合中,且X对于k的分类分数是所有动作类中的最大值,则该动作类对应的代理向量属于的正代理集合而其余的动作均属于X的负代理集合动作聚类损失函数Lact计算方式表示如下:
其中cx,k表示动作k在片段X上的分类分数,S()表示余弦相似性。
步骤八:若训练视频中的一个片段X属于伪背景段,为了使背景和动作得到更有效的区分,设置背景分类损失函数Lbkg使X的特征远离所有动作代理向量P,即所有的动作代理向量均为负代理向量背景分类损失函数Lbkg的计算方式表示如下:
步骤九:由于动作代理向量Pc的训练依赖步骤三所述的片段级动作分类分数,而模型训练的早期分类模块的准确性较低。所以应用背景建模损失函数使分类模块快速收敛,之后再对动作代理向量Pc进行训练。所述背景建模损失函数为:
其中m表示一个预定义的最大特征量,C表示数据集中的动作种类数量,Sc,j表示动作c在片段j中的softmax分类分数。
步骤十:设置多标签动作分类损失,预测分数pi和视频级动作标签yi之间的交叉熵损失函数表示为:
代理度量模型的总损失函数为:
其中N代表一个训练批次中训练视频的数量。
步骤十一:将步骤六中训练出的动作代理图向量P应用到测试阶段中。在测试阶段,对于目标视频所有可能包含的动作,将其分类分数表示为
St,c=πt,cS(Xt,Pc)#(13)
其中πt,c表示动作类c在第t个片段中的片段分类分数,S(Xt,Pc)表示第t个片段的嵌入特征向量和动作类c的代理向量Pc之间的余弦相似性。
步骤十二:将步骤十中的代理度量模型应用于动作定位数据集,使用动作定位数据集的视频集动作分类标签训练神经网络模型,然后用训练出的神经网络模型进行定位准确性的测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110527929.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于旧物修复的激光检测装置
- 下一篇:一种黄原胶产品生产控制设备