[发明专利]一种基于知识蒸馏的边缘设备场景识别方法及装置在审
申请号: | 202111301637.0 | 申请日: | 2021-11-04 |
公开(公告)号: | CN114241282A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 赵亮;魏政杰;付园坤;金军委;张坤鹏;王建鹏;丁倩;郝展鹏;付宏达 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/764;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 高为宝 |
地址: | 450001 河南省*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 蒸馏 边缘 设备 场景 识别 方法 装置 | ||
本发明提供一种基于知识蒸馏的边缘设备场景识别方法及装置。该方法包括:构建场景识别教师模型,具体包括:采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,得到场景识别教师模型Plaswin‑T;构建蒸馏损失函数,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;构建场景识别学生模型,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,以所述蒸馏损失函数作为训练损失函数进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
技术领域
本发明涉及采用人工智能方法的计算机视觉场景识别技术领域,尤其涉及一种基于知识蒸馏的边缘设备场景识别方法及装置。
背景技术
场景一般理解为复杂现实环境的高度抽象和表示,一副图像的场景类别不仅代表了对于该图像的整体描述和概括,而且还包含了图像中不同对象之间的上下文关系,进而为深入分析图像中的对象及其相互关系和内容理解提供基础。场景识别是图像识别中最受关注的课题之一,旨在预测目标图像的地点的类别和其他信息,在现在的计算机视觉领域具有重要的研究意义,应用于实现对图像的管理和检索,同时为物体识别、目标检测等计算机视觉任务提供必要的上下文信息,在自主机器人及无人机等端侧边缘智能设备上尤为常见。
现有常见的场景识别方法主要分为基于对象的场景识别、基于区域的场景识别和基于上下文的场景识别三类。场景图像的特征多种多样,利用图像中的对象信息是场景识别中最常用的场景特征,当特定对象出现在图像中时图像属于与该对象相关联的特定类别的概率增加。卷积神经网络(Convolutional Neural Network,CNN)长期在图像分类领域占据主导地位,但是现有的方法大多没有充分利用场景图像的有价值的特征进行场景识别,表现在结合物体和场景信息的融合方法效果不佳,没有充分考虑物体对象和场景之间的差异,其次与一般图像识别问题中出现在图像特定部分的对象不同,场景识别问题中场景遍布整个图像,相关算法考虑图像信息不够全面导致识别精度较差。基于平移窗口和自注意力机制的分层视觉变换Swin Transformer作为计算机视觉的新型通用骨干,在图像分类、目标检测和语义分割方面的性能表现均优于大多数先进的卷积神经网络。
随着图像信息的急速增加、图像分类算法的迭代改进及新特征提取算法的提出,对计算机场景识别能力的要求也越来越高。受限于边缘设备有限的硬件资源和计算能力,传统机器学习和深度学习模型在不经过优化的情况下很难有效在边缘设备上运行,且计算及存储资源的高占用不利于信息处理的实时性实现。
发明内容
现有的小规模网络模型表达能力有限,难以获得满意的预测结果,而表现优异的大规模机器学习和深度学习模型往往需要极大的计算资源和存储资源。但是考虑到实际应用场景,边缘设备的硬件条件不足以支撑大规模模型部署,针对该问题,本发明提出一种基于知识蒸馏的适用于边缘设备的场景识别方法及装置。
一方面,本发明提供一种基于知识蒸馏的边缘设备场景识别方法,包括:
构建场景识别教师模型,具体包括:采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
构建蒸馏损失函数,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;
构建场景识别学生模型,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111301637.0/2.html,转载请声明来源钻瓜专利网。