[发明专利]一种应用于大规模城区重建中的多标签像素分类方法在审
申请号: | 201711205176.0 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107977677A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 大规模 城区 重建 中的 标签 像素 分类 方法 | ||
技术领域
本发明涉及物体分类领域,尤其是涉及了一种应用于大规模城区重建中的多标签像素分类方法。
背景技术
物体分类是计算机视觉中的一个重要研究课题,近年来得到了广泛的关注,其发展可包括安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等,交通领域的交通场景物体识别、车辆计数、逆行检测、车牌检测等与个体生活息息相关的方面,同时,在大尺寸大规模图像的分类任务中,例如测绘领域中的海洋测绘、森林测绘等也具有重要应用。如今,在经济发展的作用下,城镇化、城区一体化建设频率正在加快,因此在大规模的城区重建中,如果能成功自动识别物体并归类,将大大加快假设效率并减少人力物力的虚耗。
在像素级别的物体分类与检测是视觉研究中的常见问题,也是一个非常具有挑战性的问题。由于任务中涉及的实际操作如尺度、光照、视角和形变遮挡;类别操作如类内差异、类间模糊等复杂的时空关系,给小颗粒像素的分类带来困难。特别在语义层次,计算机的算法在学习人类对待同一类事物中使用不同的表达方法这一过程,仍然显得能力不足,因此整体上看,像素级别的物体分类与检测仍然是处于较为困难的研究领域。
本发明提出了一种基于有监督的深度学习网络进行特征提取的新框架,先使用数据集进行对应特征图的生成,再构建一个基于卷积神经网络的有监督的深度学习框架,对输入的图像进行标签归类以及特征提取,然后再将提取到的特征输入到线性分类器支持向量机中进行多分类任务,从而区分出待分类像素的从属关系。本发明可以处理高清图像中除了边界像素以外的每个像素点的分类,提供一个在训练过程中保持图像尺度不变的方法,同时提高了在大规模城区地表图中进行物体分类的精确率。
发明内容
针对解决在大规模图像中进行像素级别分类的问题,本发明的目的在于提供一种应用于大规模城区重建中的多标签像素分类方法,先使用数据集进行对应特征图的生成,再构建一个基于卷积神经网络的有监督的深度学习框架,对输入的图像进行标签归类以及特征提取,然后再将提取到的特征输入到线性分类器支持向量机中进行多分类任务,从而区分出待分类像素的从属关系。
为解决上述问题,本发明提供一种应用于大规模城区重建中的多标签像素分类方法,其主要内容包括:
(一)数据集;
(二)网络结构;
(三)训练方法。
其中,所述的数据集,使用分辨率大于或等于6000×6000的图像作为训练与测试图像,每张图像分别有三个对应的特征图:深度图、标签图以及彩色图像;每张图像中的每个像素会被分成以下6个类别的其中一个:建筑物、树木、道路、自然地表、人造地表和汽车,其中人造地表涵括了所有既不属于道路又同时覆盖有某种材料的区域。
所述的网络结构,使用一个总共具有13层的卷积神经网络以及一个线性分类器(支持向量机)构建深度神经网络,其中包括:网络初始化、卷积模块设置和网络输出三部分。
所述的网络初始化,包括网络输入的尺寸设定和网络滤窗的大小设定,具体为:
1)将输入源图像分割成连续不重叠的块(大小为N×N),本方法中N=100;
2)卷积核大小设置为k,本方法中k=5。
所述的卷积模块设置,使用不同的功能层对图像或中间数据进行处理并得到中间结果,具体为:
1)输入层:尺寸为[100×100];
2)卷积层:卷积核大小为5×5,特征图个数为6,得到中间结果尺寸为[96×96];
3)池化层:均值核大小为3×3,得到中间结果尺寸为[48×48];
4)卷积层:卷积核大小为5×5,特征图个数为12,得到中间结果尺寸为[44×44];
5)池化层:极值核大小为3×3,得到中间结果尺寸为[21×21];
6)合并层:将5)得到的12个尺寸为21×21的特征图横向连接成为向量,尺寸为[1×5292];
7)全连接层:共2层,各层神经元的个数分别为120和6;
8)激活函数:在2)和4)这两个卷积层后,都是用非线性激活函数进行值域的映射;
综上,卷积模块的设置如公式(1)所示:
其中,p表示一个像素点,Φp表示是与六个标签相对应的值的六元组,X表示网络输入,Ψ表示卷积网络操作,Γ(·)表示全连接层操作,∏max和∏avg分别表示最大值池化和均值池化操作,ReLU(·)表示非线性激活函数。
所述的网络输出,对于输入中的每个像素p,其对应的输出6元数组定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711205176.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本相似度计算方法及装置
- 下一篇:用于输出信息的方法和装置