[发明专利]基于可配置卷积神经网络的RGB‑D人物行为识别方法有效
申请号: | 201410415114.2 | 申请日: | 2014-08-21 |
公开(公告)号: | CN104217214B | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 林倞;王可泽;李亚龙;王小龙 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/02 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 528300 广东省佛山市顺德区大良*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于可配置卷积神经网络的RGB‑D人物行为识别方法,构建基于可动态调整结构(可配置)的深度卷积神经网络;该识别方法可以直接处理RGB‑D视频数据,并根据人物行为在时域上的变化动态调整网络结构,进而有效地自动抽取复杂人物行为的时空特征,最终大幅度提高人物行为识别的准确率。 | ||
搜索关键词: | 基于 配置 卷积 神经网络 rgb 人物 行为 识别 方法 | ||
【主权项】:
一种基于可配置卷积神经网络的RGB‑D人物行为识别方法,其特征在于,包括以下步骤:S1.构建可配置的深度模型,该深度模型引入隐变量,其构建过程为;深度模型包括M个子网络和两个全连接层,每个子网络包括顺次连接的第一个三维卷积层、第一个降采样层、第二个三维卷积层、第二个降采样层和二维卷积层;M个子网络的输出合并在一起,连接两个串联的全连接层;在深度模型中引入隐变量,对输入的RGB‑D视频帧在时间上进行划分,得到M个视频块,每个视频块作为一个子网络的输入;所述深度模型中每个子网络对应的输入的起始帧是可调整的,由隐变量控制;对于给定的输入RGB‑D视频,使用前向传播算法来识别视频中人物的行为;对于单个视频样本,定义M个子网络的起始帧点为(s1,...,sM)并且对应的输入帧的数量为(t1,...,tM),其中1≤ti≤m,则深度模型的隐变量表示为H=(s1,...,sM,t1,...,tM),其表达的是每个子网络和视频段的对应关系;给定输入视频X,隐变量H以及模型的参数ω,参数ω包括网络的边权重和偏置,识别的结果表达成向量F(X,ω,H),其中每个元素表示视频X属于某一行为类别的概率,将属于第i类的概率简记为Fi(X,ω,H);S2.学习深度模型的参数,通过隐式网络结构反向传播算法来学习深度模型的参数,其学习过程为:固定当前深度模型参数进行人物行为识别,同时获取每个训练样本视频在时域上的优化分解模式;固定输入视频的分解模式,使用反向传播算法学习网络的每层参数;S3.人物行为识别,在时间上枚举RGB‑D视频流所有的分解模式,采用深度模型进行人物行为识别,获取最优分解模式,并在最优分解模式下输出人物行为的识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410415114.2/,转载请声明来源钻瓜专利网。