[发明专利]人工智能CNN、LSTM神经网络动态识别系统在审
申请号: | 201910436838.8 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110110707A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 詹志超 | 申请(专利权)人: | 苏州闪驰数控系统集成有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F16/2455;G06F16/23;G06F16/51;G06F16/783;G06Q50/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215000 江苏省苏州市苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人工智能 动态识别 神经网络 拍摄 信息资源利用率 记忆神经网络 卷积神经网络 维护社会治安 行为特征信息 数据库模块 安全保障 对比分析 技术处理 目标人物 人脸特征 特征提取 特征信息 信息共享 行为特征 异常行为 语音特征 终端采集 终端周边 视频流 云计算 操作系统 服务器 摔倒 数据库 预警 入侵 终端 监控 监测 身份 | ||
1.人工智能CNN、LSTM神经网络动态识别系统,其特征在于:包括:拍摄终端(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)、与云数据库动态黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900)。
2.根据权利要求1所述的人工智能CNN、LSTM神经网络动态识别系统,其特征在于:所述拍摄终端(100)用于采集含有人脸特征、语音特征及行为特征信息的视频流,并自动在图像中检测和跟踪人脸、语音、行为特征的信息,进而对检测到的人脸特征、语音特征及行为特征信息进行一系列与行为相关的技术处理,包括人脸识别、语音识别、行为特征信息识别及异常行为识别(包括打架、盗窃、老人摔倒、聚众事件、入侵等等),并通过网络将图像序列发送至服务器(200),所述网络包括局域网、Interne或无线网络。
3.根据权利要求1所述的人工智能CNN、LSTM神经网络动态识别系统,其特征在于:所述服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)模块、与云数据库动态黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900),所述服务器(200)用于为网络系统中客户端提供各种高性能计算的服务,服务器在人工智能预警操作系统的控制下,将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云处理器、NPU神经网络云处理器、异构/可重构云处理器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接,为远程监控客户端提供集中计算、信息发布及数据管理的服务。
4.根据权利要求1所述种人工智能CNN、LSTM神经网络动态识别系统,其特征在于:所述卷积神经网络模块(300)包括输入层、硬连线层H1、卷积层C2、下采样层S3、卷积层C4、下采样层S5、卷积层C6、Dropout层、输入长短时记忆神经网络,卷积神经网络通过3D卷积核去提取视频数据的时间和空间特征,3D特征提取器在空间和时间维度上的操作,可以捕捉视频流的运动信息,3D卷积特征提取器构造了一个3D卷积神经网络架构,这个架构可以从连续视频帧中产生多通道的信息,然后在每一个通道都分离地进行卷积和下采样操作,最后将所有通道的信息组合起来得到最终的特征描述,通过计算高层运动特征得到辅助输出来增强模型,在Trecvid数据集中测试,并和一些基准方法进行比较,为了应对不同环境的使用,综合多个不同的CNN架构去综合判断识别结果,3D卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核去捕捉时间和空间维度上的运动特征信息,卷积层中每个3D卷积核的权值都是一样的,也就是共享权值,一个卷积核只能提取一种运动特征,多种卷积核提取多种运动特征,每个3D卷积核卷积的立方体是连续7帧,每帧大小是60×40,首先将预处理后的连续7帧,每帧大小是60×40的序列输入卷积神经网络进行训练,更新卷积神经网络各层权值,对卷积神经网络卷积层C2进行初始化操作,首先对卷积层和输出层的卷积核和权重进行高斯分布随机初始化,均值设为0,方差设为0.001,对偏置进行全0初始化,再对卷积神经网络进行训练,步骤如下:
a)输入层:输入连续7帧,每帧大小60×40;
b)硬连线层H1:H1层用来生成多通道信息,被用来编码先验知识,该层对输入层的每一帧提取五个通道的信息,分别是:灰度值、x方向的梯度、y方向的梯度,x方向的光流、y方向的光流,其中前面三个值对每帧都计算,x和y方向的光流需要两个连续帧才能计算,由于输入层是7帧,所以H1的特征图数量是7(灰度值)+7(x方向的梯度)+7(y方向的梯度)+6(x方向的光流)+6(y方向的光流)=33,每个特征图大小依然是60×40;
c)卷积层C2:C2层是3D卷积层,3D卷积核大小是7×7×3,其中7×7表示在空间上的大小,3是时间维的长度,C2层对H1层的五个通道的每一个通道分别进行卷积,特征图数量是(7-3+1)×3+(6-3+1)×2=5×3+4×2=23,乘以3表示灰度、x和y方向的梯度这三个通道,乘以2表示x和y方向的光流,采用2个不同的卷积核,这样C2层有两组特征图,每组都包含23个特征图,即C2层总的特征图数量是23×2,每个特征图的大小是(60-7+1)×(40-7+1)=54×34,C2层的可训练参数是(7×7×3×5+5)×2=740×2=1480个,其中的乘以5表示5个通道的信息,加上5表示偏置项,乘以2表示有2个不同的卷积核,3D卷积层深度为1的卷积计算方法,公式如下所示:
上式一中xi,j表示图像的第i行第j列元素,wm,n表示第m行第n列权重,wb表示过滤器的偏置项,ai,j表示特征图谱的第i行第j列元素,f表示relu激活函数;
当步长为2时,特征图谱就变成2×2了,计算公式如下所示:
W2=(W1-F+2P)/S+1 式二
H2=(H1-F+2P)/S+1 式三
上式二、三中W2表示卷积后特征图谱的宽度,W1表示卷积前图像的宽度,F表示过滤器的宽度,P表示零填充数量,S表示步长,H2表示卷积后的特征图谱的高度,H1表示卷积前图像的宽度;
深度大于1的卷积计算方式,公式如下所示:
上式四中D表示深度,F表示过滤器的大小(宽度或高度,两者相同),wd,m,n表示过滤器的第d层第m行第n列权重,ad,i,j表示图像的第d层第i行第j列像素,其它符号含义和式一公式是相同的;
d)下采样层S3:采用最大池化方法,采样窗口是2×2,所以每个特征图大小是(54/2)×(34/2)=27×17,特征图数量等于上一层数量依然是23×2,
其一般表示形式,公式如下所示:
式五中ai,j表示特征图谱的第i行第j列元素,b为偏差量,K为特征图的通道数,f、so和p是卷积层参数,对应卷积核大小、卷积步长和填充层数,特殊地,当卷积核是大小f=1,步长so=1且不包含填充的单位卷积核时,卷积层内的交叉相关计算等价于矩阵乘法,步长so、像素(i,j)的含义与卷积层相同,p是预指定参数,当p=1时,当p→∞时,Lp池化在区域内取最大值,称为最大池化,以损失特征图尺寸为代价保留图像的背景和纹理信息;
e)卷积层C4:C4层是3D卷积层,卷积核大小是7×6×3,其中7×6表示在空间上的大小,3是时间维,特征图数量是(5-3+1)×3+(4-3+1)×2=3×3+2×2=13,乘以3表示灰度值、x和y方向的梯度这三个通道,乘以2表示x和y方向的光流,采用6个不同的卷积核,这样C2层有6组特征图,每组都包含6个特征图,即本层总的特征图数量是13×6=78,每个特征图的大小是(27-7+1)×(17-6+1)=21×12,可训练参数有(7×6×3×5+5)×6=3810个,C4计算公式与C2公式相同;
f)下采样层S5:S5层下采样层,采用最大池化方法,采样窗口是3×3,所以每个特征图大小是(21/3)×(12/3)=7×4,特征图数量等于上一层数量依然是13×6=78,C6层是2D卷积层,卷积核大小是7×4,特征图数量是128,特征图大小是1×1,每一个特征图都与S5层的78个特征图相连接,可训练参数有(4×7×128+128)×(13×6)=289536个,S3计算公式与S5计算公式相同;
g)卷积层C6:这一层只在空间维度上面卷积,使用的核为7×4,然后输出的特征图谱就减小到1×1的大小,其包含128个特征图谱,每个特征图谱与S5层中所有78(13×6)个特征图谱全连接,这样每个特征图谱就是1×1,也就是一个值了,而这个值就是最终的特征向量共128维,C6计算公式与C2公式相同;
h)Dropout层:随机地为网络中的神经元赋值零权重,由于选择了0.5的比率,则50%的神经元将会是零权重,通过这种操作,网络对数据的微小变化的响应就不那么敏感了,因此,它能够进一步提高对不可见数据处理的准确性,Dropout层的输出仍然是一个1×128的矩阵,再将长度为128的向量输出值输入到长短时记忆神经网络(400)进行时间序列行为分析运算;
i)将卷积神经网络进行权值初始化,输入数据,重复步骤(a)~(h),前向传播得到输出值,求出卷积神经网络的输出值与目标值之间的误差,当误差大于期望值时,将误差传回卷积神经网络中,用BP反向传播算法进行监督训练,求出结果与期望值的误差,再将误差一层一层的返回,计算出每一层的误差,进行权值更新,依次为Dropout层、卷积层C6、下采样层S5、卷积层C4、下采样层S3、卷积层C2、硬连线层H1的误差,以求得卷积神经网络的总误差,再将误差传入卷积神经网络中,求得该各层对于总的误差应该承担多少比重,在训练卷积神经网络时,通过不断改变卷积神经网络中所有参数,使损失函数不断减小,当误差等于或小于期望值时,证明已训练出高精度的卷积神经网络模型,结束训练;
j)采集预处理后的连续7帧立方体序列输入卷积神经网络进行测试,通过步骤(a)~(h)卷积神经网络的数据处理过程后,数据被处理为一个1×128向量,输入到softmax分类器进行分离,softmax分类器将要分离的信号映射到相应的标签上,训练时信号经过卷积神经网络的数据处理过程得到一个分类结果,将其与相应的标签数据进行比较算出相应的相对误差,通过训练一定的次数不断修正卷积神经网络中的卷积窗口上的权值使得相对误差不断减小,最后趋于收敛,然后将测试集输入到该网络中进行测试分类,得到分类结果标签向量,最大值元素所在标号表示该运动特征为本次测试运动特征的类别标签,实现行为识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州闪驰数控系统集成有限公司,未经苏州闪驰数控系统集成有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910436838.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于人工智能的手写电话号码图像识别方法和装置
- 下一篇:电气负载类型识别装置