[发明专利]一种基于情感分类的视频情感定位方法有效
申请号: | 202211288216.3 | 申请日: | 2022-10-20 |
公开(公告)号: | CN115761569B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 朱世强;孟森森;宋伟;郭方泰;张格格 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/16;G06V10/44;G06V10/82;G06N3/0464 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;杨东炜 |
地址: | 311121 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情感 分类 视频 定位 方法 | ||
1.一种基于情感分类的视频情感定位方法,其特征在于,包括:
S1.通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;
S2.建立情感定位网络,生成情感定位片段;
S201.建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征;包括:使用Resnet卷积神经网络获取图像特征,为了寻找多个重要局部特征,建立多分支图像特征同时每个分支引入1*1卷积核进行特征降维,借助注意力机制,训练模型聚焦于多个局部特征,获取重要局部特征信息;建立多个图像特征分支后各分支通过1*1卷积核压缩特征图像,模块自动寻找重要脸部部分,对应的部位包括但不限于嘴部、眉心;最后,获取每个像素在各分支通道内最大值,作为最终的注意力特征输出;
S202.使用视觉transformer算法获取情感类别;包括:将获取的注意力特征图像进行降维操作,将2D序列转成1D序列,作为视觉transformer的输入,预测情感类别概率,将概率最高的情感作为图片输出;所述的情感类别包括:高兴、生气、悲伤、害怕、平静、厌恶和惊讶,每帧图片能够预测各情感概率;
S203.判断各帧之间情感类别关系,删除误检或者异常结果;包括:人类情感变化是一个类似波浪线起伏的过程,“平静”表示情感稳定阶段,一旦情感出现变化,情感曲线将产生变化,即情感曲线变化阶段;将情感曲线变化阶段作为需要进行定位的情感时间段,通过各帧图片情感概率预测,判断存在误检或者异常结果;
S204.将相同表情识别结果,且时序距离近作为视频中情感定位候选片段;借助表情特征识别结果,除去异常检测帧后获得边界清晰情感定位片段,同时得到该片段情感类别;将相同表情首尾N帧各自组合成情感定位候选片段;
S205.基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;借助候选片段每帧的情感类别概率,通过线性插值的方式均匀采样若干个特征点得到每段候选片段对应的片段特征,使用全连接获取片段特征置信度;通过设置置信度阈值获取最佳情感定位候选片段;具体地,对步骤S204中获取的多段候选片段特征,采用soft-nms算法获取置信度最佳片段作为视频该处情感定位片段结果;
S3.输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。
2.根据权利要求1所述的一种基于情感分类的视频情感定位的方法,其特征在于,步骤S1所述人脸识别模型能处理不同场景下视频,所用检测模型包括但不限于MTCNN模型、YOLO模型;获取视频人脸图片时计算人脸检测框中心点坐标,然后按照比例进行检测框拓展,拓展框包围的人脸范围更大,能够更多地提供人脸表情特征。
3.根据权利要求1所述的一种基于情感分类的视频情感定位的方法,其特征在于,步骤S203中判断序列图片中人脸表情识别误检或者异常结果时,舍弃一段序列中表情检测异常的图片。
4.根据权利要求1所述的一种基于情感分类的视频情感定位的方法,其特征在于,考虑到后期计算时间,首尾帧数选择以间隔方式获取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211288216.3/1.html,转载请声明来源钻瓜专利网。