[发明专利]一种基于时域注意力池化网络的动图分类方法及装置有效
申请号: | 202110396335.X | 申请日: | 2021-04-13 |
公开(公告)号: | CN113221951B | 公开(公告)日: | 2023-02-17 |
发明(设计)人: | 马永娟;朱鹏飞;黄进晟;王汉石;石红;赵帅;胡清华 | 申请(专利权)人: | 天津大学;中汽数据(天津)有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/84;G06V10/40;G06V10/774 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时域 注意力 网络 分类 方法 装置 | ||
1.一种基于时域注意力池化网络的动画GIF内容分类方法,其特征在于,所述方法包括:
构建网络动图数据集,并构建一动画GIF内容分类模型,所述内容分类模型包括:特征提取模块、时域注意力池化网络与损失层;
通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;
基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类;
所述网络动图数据集为:
动图中大多数的帧与真实的内容标签无关、数据集中包含全面且多样的动图内容、且动图的空间大小和序列长度跨度;数据集中类别存在不平衡性;
所述特征提取模块为:
将第i个GIF样本中的T个帧作为输入,使用二维卷积骨干网络进行处理得到GIF中的各帧的特征映射;
通过空间池化操作减少特征图的空间维数,特征表示形式化地表示为Xi∈RT×C,其中C是特征通道的数目,Xi为第i个GIF样本中的T个帧的特征表示,R为实数;
所述时域注意力池化网络为:
使用一单层的线性分类器得到预测分数,注意力模块为每一帧计算权重,基于权重得到最终的预测分数;
所述网络还配置有两层的多层感知机与一个防止过拟合层;
所述总体损失函数为:
L=γ1Lce+γ2Laux+γ3Lent
其中,γ1,γ2与γ3为扩展因子,Lent为熵正则化项;Lce为交叉熵损失函数;Laux为辅助损失函数。
2.一种基于时域注意力池化网络的动画GIF分类装置,其特征在于,所述装置包括:
构建模块,用于构建网络动图数据集,并构建一动画GIF内容分类模型,所述内容分类模型包括:特征提取、时域注意力池化网络与损失层;
获取模块,用于通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;
动画分类模块,用于基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类;
所述构建模块包括:特征提取子模块,
用于将第i个GIF样本中的T个帧作为输入,使用二维卷积骨干网络进行处理得到GIF中的各帧的特征映射;
通过空间池化操作减少特征图的空间维数,特征表示形式化地表示为Xi∈RT×C,其中C是特征通道的数目,Xi为第i个GIF样本中的T个帧的特征表示,R为实数;
所述总体损失函数为:
L=γ1Lce+γ2Laux+γ3Lent
其中,γ1,γ2与γ3为扩展因子,Lent为熵正则化项;Lce为交叉熵损失函数;Laux为辅助损失函数。
3.一种基于时域注意力池化网络的动画GIF分类装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1所述的方法步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学;中汽数据(天津)有限公司,未经天津大学;中汽数据(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110396335.X/1.html,转载请声明来源钻瓜专利网。