[发明专利]基于深度学习的全景图像对象检测方法在审

申请号：	201810991838.X	申请日：	2018-08-29
公开（公告）号：	CN109255375A	公开（公告）日：	2019-01-22
发明（设计）人：	焦健;连海东;李哲;张立华	申请（专利权）人：	长春博立电子科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/00;G16H50/20
代理公司：	长春市吉利专利事务所 22206	代理人：	李晓莉
地址：	130000 吉林省长春市***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	候选区域对象检测全景图像图像输入测试搜索算法特征输入输出固定的缩放运算学习分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的全景图像对象检测方法，其特征在于，包括：

S1输入测试图像；

S2利用选择搜索算法在图像中提取1500至2500个的候选区域；

S3将每个候选区域缩放成固定的特征并传入卷积神经网络模型CNN，经过运算输出特征为分辨率227×227，并所述输出特征输入到卷积神经网络模型，将卷积神经网络模型的全连接层的输出作为特征；

S4将每个候选区域提取到的特征输入到支持向量机分类器进行分类。

2.根据权利要求1所述的基于深度学习的全景图像对象检测方法，其特征在于，具体步骤包括：

添加配置文件，设置检测网络模型；

根据检测网络模型训练全景图片，大约训练10万次左右，并生成检测模型文件；

输入全景视频，将其分辨率缩小到416*416；

根据检测网络模型配置文件以及训练生成的检测模型文件，对输入的全景视频进行检测；

检测结果输出显示。

3.根据权利要求1所述的基于深度学习的全景图像对象检测方法，其特征在于，在网络中果断去掉了全连接层，去掉了后面的一个池化层，然后通过缩减网络，让图片输入分辨率为416*416，产生一个中心预测单元；使用了卷积层降采样，使得输入卷积网络的416*416图片最终得到13*13的卷积特征图。

4.根据权利要求1所述的基于深度学习的全景图像对象检测方法，其特征在于，最终的距离函数为如下所示：

d(box，centroid)＝1-IOU(box，centroid)

通过改进的硬聚类算法K-means对训练集中的分块boxes进行了聚类，判别标准是平均重叠度IOU得分。

5.根据权利要求1所述的基于深度学习的全景图像对象检测方法，其特征在于，在区域建议网络中，预测以及使用的是如下公式：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，

t_w＝log(w/w_a)，t_h＝log(h/h_a)，

这个公式没有任何限制，把ground truth限制在了0到1之间，利用logistic回归函数来进行这一限制；

现在，神经网络在特征图(13*13)的每个cell上预测5个聚类得出的值boundingboxes，同时每一个聚类得出的值bounding box预测5个坐值，分别为tx，ty，tw，th，totx，ty，tw，th，to，其中前四个是坐标，toto是置信度，如果这个cell距离图像左上角的边距为(cx，cy)(cx，cy)以及该cell对应box(bounding box prior)的长和宽分别为(pw，ph)(pw，ph)，那么预测值表示为：

b_x＝σ(tx)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b，object)＝σ(t_o)

tx，ty经sigmod函数处理过，取值限定在了0～1，实际意义就是使anchor只负责周围的box，σ函数的意义没有给，但估计是把归一化值转化为图中真实值，使用e的幂函数是因为前面做了ln计算，因此，σ(tx)是bounding box的中心相对栅格左上角的横坐标，σ(ty)是纵坐标，σ(to)是bounding box的confidence score定位预测值被归一化后。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于长春博立电子科技有限公司，未经长春博立电子科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810991838.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度学习的全景图像对象检测方法在审

专利文献下载