[发明专利]基于深度学习方法的前挡风玻璃及驾驶员区域定位方法在审

申请号：	202110009495.4	申请日：	2021-01-05
公开（公告）号：	CN112686188A	公开（公告）日：	2021-04-20
发明（设计）人：	罗静蕊;卢金波;张爽;王璐	申请（专利权）人：	西安理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	西安弘理专利事务所 61214	代理人：	徐瑶
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习方法挡风玻璃驾驶员区域定位方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，其特征在于，具体按照以下步骤实施：

步骤1、构造数据集，随机分为训练集和测试集，并对训练集和测试集进行格式转换；通过聚类算法得出数据集中目标框的长宽的集中值，作为先验框；

步骤2、构建卷积神经网络；卷积神经网络包括有特征提取网络和特征融合网络，设置特征提取网络结构和特征融合网络结构的每层参数；

步骤3、设置步骤2所构建卷积神经网络训练时需要的损失函数、网络优化算法及所有超参数；损失函数为自定义联合损失函数；

步骤4、根据步骤3设置的卷积神经网络的损失函数、网络优化算法对步骤2构建的卷积神经网络进行训练；并保存模型权重；

步骤5、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验；

步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位，得出主驾驶位区域框。

2.根据权利要求1所述的基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，其特征在于，步骤1具体包括以下步骤：

步骤1.1、对获得的图片进行人工标注，即把前挡风玻璃区域用矩形框框起来，通过用LabelImg软件标注出前挡风玻璃的位置，构造数据集；

步骤1.2、对步骤1.1得到的数据集随机分为测试集和训练集，并对测试集和训练集进行格式转换，转换为“图片地址-目标框大小-目标框的置信度”的文本格式；通过对转换后的数据集中目标框大小进行聚类算法得出所需要的预测目标框大小的先验框的大小。

3.根据权利要求1所述的基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，其特征在于，步骤2具体包括以下步骤：

步骤2.1、构建特征提取网络结构，特征提取网络结构采用全卷积网络结构，其结构依次为：输入图片—输入三通道图像—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第1个残差层—第2个残差层—第3个残差层—第4个残差层—第5个残差层—特征融合网络。

特征提取网络结构的参数如下：

将第1个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为32；第1个残差层的特征映射图的数目设置为64，残差块数目设置为1；第2个残差层的特征映射图的数目设置为128，残差块数目设置为2；第3个残差层的特征映射图的数目设置为256，残差块数目设置为8；第4个残差层的特征映射图的数目设置为512，残差块数目设置为8；第5个残差层的特征映射图的数目设置为1024，残差块数目设置为4；

其中，残差层的结构依次为：输入特征图—零填充操作—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—特征图对应相加操作；其中与之相加的特征图为第1个LeakyReLU激活函数层输出特征图，上述结构中从“第2个卷积层”到“特征图对应相加操作”为一个残差块；

其中残差层的参数为：将零填充设置为上左补一层零；将第1个卷积层的卷积核尺度设置为3*3，卷积步长设置为2*2，输出的特征映射图的数目为输入的特征映射图的数目；将第2个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，输出的特征映射图的数目为输入的特征映射图的数目的1/2；将第3个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，输出的特征映射图的数目为输入的特征映射图的数目的2倍；

步骤2.2、构建特征融合网络结构，采用具有上采样操作和卷积操作的卷积神经网络结构，特征融合后输出的特征图有3个；

第一个输出特征图结构依次为：特征提取输出特征图—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—输出特征图；

第二个输出特征图结构依次是：第一个输出特征图的第5个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图；

第三个输出特征图结构依次是：第二个输出特征图的第6个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图；

特征融合网络结构的参数如下：

第一个输出特征图的网络结构参数为：将第1个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为512；将第2个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为1024；将第3个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为512；将第4个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为1024；将第5个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为512；将第6个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为1024；将第7个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为20；

第二个输出特征图的网络结构参数为：将第1个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为256；将上采样尺寸设置为2*2；将第2个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为256；将第3个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为512；将第4个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为256；将第5个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为512；将第6个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为256；将第7个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为512；将第8个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为20；

第三个输出特征图的网络结构参数为：将第1个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为128；将上采样尺寸设置为2*2；将第2个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为128；将第3个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为256；将第4个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为128；将第5个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为256；将第6个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为128；将第7个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为256；将第8个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为20。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安理工大学，未经西安理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110009495.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度学习方法的前挡风玻璃及驾驶员区域定位方法在审

专利文献下载