[发明专利]一种面向智能视频会议的用户行为识别方法及系统在审
申请号: | 202310425018.5 | 申请日: | 2023-04-20 |
公开(公告)号: | CN116631050A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 刘晨;孟夏冰 | 申请(专利权)人: | 北京电信易通信息技术股份有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/77;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 100097 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 智能 视频会议 用户 行为 识别 方法 系统 | ||
1.一种面向智能视频会议的用户行为识别方法,其特征在于,包括:
构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
对时空双支网络进行训练;
获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
2.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述时空双支骨干网络包括:三维卷积块、三分支特征提取结构以及逐像素加和模块;
所述三维卷积块用于进行会议视频数据的时序特征和空间特征的初步提取;
所述三分支特征提取结构用于根据初步提取的时序特征和空间特征得到不同时空跨度下的时序特征和空间特征;
所述逐像素加和模块用于将不同时空跨度下的时序特征和空间特征进行逐像素加和。
3.根据权利要求2所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述三维卷积块包括:卷积核为且步长为1的三维卷积层、一层激活函数、一个批标准化层以及池化核为的三维池化层。
4.根据权利要求2所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述三分支特征提取结构包括三个三维卷积核不同的三维卷积块。
5.根据权利要求1所述的一种面向智能视频会议的用户行为识别方法,其特征在于,所述对时空双支网络进行训练,具体包括:
录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
构建动作检测数据集;
根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
6.一种面向智能视频会议的用户行为识别系统,其特征在于,包括:
时空双支骨干网络构建单元,用于构建时空双支骨干网络;所述时空双支骨干网络用于提取时序特征和空间特征;
时空双支网络构建单元,用于构建时空双支网络;所述时空双支网络包括:目标检测网络YOLOv7、面部分支、动作分支、全程时序分支、拼接层concat以及两个全连接层;所述目标检测网络YOLOv7以会议视频数据中的当前视频片段为输入,以参会人员的面部候选区为输出;所述面部分支、动作分支和全程时序分支均基于时空双支骨干网络进行构建;所述面部分支以参会人员的面部候选区为输入,以面部特征为输出;所述动作分支以参会人员的面部候选区在空间维度上扩张得到动作候选区为输入,以动作特征为输出;所述全程时序分支以会议视频数据为输入,以时序特征为输出;所述拼接层concat将面部特征、动作特征以及时序特征进行拼接操作,得到复合特征信息,并将复合特征信息输入至依次连接的两个全连接层中,得到参会人员的当前动作类别;
时空双支网络训练单元,用于对时空双支网络进行训练;
用户行为识别单元,用于获取待识别的会议视频,并利用训练好的时空双支网络识别待识别的会议视频中每一参会人员的当前动作类别。
7.根据权利要求6所述的一种面向智能视频会议的用户行为识别系统,其特征在于,所述时空双支网络训练单元具体包括:
参会人员数据集构建子单元,用于录入参会人员信息,并构建参会人员数据集;参会人员信息包括:参会人员图像以及对应的标注;
YOLOv7人员检测模型确定子单元,用于利用参会人员数据集训练目标检测网络YOLOv7,确定YOLOv7人员检测模型;
动作检测数据集构建子单元,用于构建动作检测数据集;
时空双支网络训练子单元,用于根据动作检测数据集和YOLOv7人员检测模型训练时空双支网络,确定训练好的时空双支网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京电信易通信息技术股份有限公司,未经北京电信易通信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310425018.5/1.html,转载请声明来源钻瓜专利网。