[发明专利]基于多头注意力机制的多阶段深度网络室内场景识别方法在审
申请号: | 202211017228.2 | 申请日: | 2022-08-23 |
公开(公告)号: | CN115424123A | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 陈略峰;段文浩;吴敏;李敏 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/44;G06V10/764;G06V10/77;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 王佩 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多头 注意力 机制 阶段 深度 网络 室内 场景 识别 方法 | ||
本发明提供了一种基于多头注意力机制的多阶段深度网络室内场景识别方法,包括以下步骤:获取室内场景的数据集,并将数据集按比例分为训练集和测试集;对训练集中的室内场景图像进行预处理和数据增强处理;将增强后的图像输入到3层不同步长的卷积层中进行下采样;将提取到的特征信息输入到主干网络中,利用深度卷积和多头自注意力机制,采用多阶段的训练方式进行深度特征提取,得到深度特征信息;将深度特征信息输入到池化层、全连接层和分类器中,得到训练完成的分类器;利用训练完成的分类器对测试集进行测试,从而确定室内场景类别。本发明可以获取更好的局部特征信息和深度特征信息,并在减少特征信息的损失的同时实现室内场景的准确识别。
技术领域
本发明属于识别检测技术领域,是机器人对环境感知的基础,具体涉及一种基于多头注意力机制的多阶段深度网络室内场景识别方法。
背景技术
场景识别是人工智能的核心研究领域,主要研究利用场景图像的特征信息对图像中的场景进行分类。场景识别广泛应用于人机交互中,因此机器可以识别图像中的场景信息。因此,场景识别在图像检索、智能机器人、智能安全等领域发挥着重要作用。
与室外场景相比,包含多个对象的室内场景的图像内容更为复杂,且对象之间存在遮挡,因此很难提取场景特征。早期的室内场景识别主要采用中层特征和高层语义特征,识别效果取决于所选特征,不能有效消除室内物体的干扰,准确提取室内场景特征。深度学习算法在很多方面取得了巨大的成就,因此越来越多的学者开始研究深度学习算法来解决室内场景分类问题。
传统的基于深度学习的场景识别方法主要分为以下三类:基于深度学习与视觉词袋相结合的场景识别、基于显著部分的场景识别和基于多层特征融合的场景识别。
在基于深度学习和视觉单词袋相结合的场景识别中,单词袋模型基于文本处理的思想,将图像视为一组无序的视觉单词,提取并聚类从图像中获得的图像块的特征,并构造一个视觉码本来表示图像,简单易用,在一些研究中取得了良好的效果,但是需要针对具体任务进行码本的构建,并且没有充分利用室内场景图像的深度特征信息。
基于显著部分的场景识别方法可以归结为人眼通常只能根据图像中最具代表性的部分来判断场景的类别。一些研究发现,用于场景识别的CNN可以定位图像中能够提供有用信息的目标,但是复杂场景可能包含不止一个显著目标,不同场景的显著目标可能存在一定的重合,对场景识别精度有一定的影响。
对于基于多层特征融合的场景识别,CNN模型的每一层结构都可以学习不同的特征。层次越深,学习到的特征就越抽象和有区别。使用预先训练的CNN模型来提取场景图像特征,并将最后两个完整连接层的输出连接为图像表示。这种方法侧重于使用抽象的全连接层特征来表示图像,而忽略了卷积层中丰富的局部信息,使得图像信息中的局部特征信息没有得到充分利用,降低了室内场景的识别精度。
因此,传统的基于深度学习的场景识别方法,其室内场景图像局部特征和深度特征信息易丢失,没有得到充分利用,从而导致识别精度较低。
发明内容
本发明要解决的技术问题主要在于:传统室内场景识别方法存在的室内场景图像局部特征和深度特征信息易丢失,没有得到充分利用,从而识别精度较低的问题,为了解决该问题,本发明提出一种基于多头注意力机制的多阶段深度网络室内场景识别方法。输入为数据库原始图像和数据增强函数,经过Trivial augmentation数据增强模块得到增强后的室内场景图像,经过三层不同步长的卷积层进行局部特征提取,同时保留更多的特征信息,采用多阶段训练方式,利用深度卷积和多头注意力机制顺序叠加进行深度特征提取,经过最后的池化层和全连接层,得到最终训练完成的分类器,进行最终室内场景的识别与检测。
根据本发明的第一方面,本发明一种基于多头注意力机制的多阶段深度网络室内场景识别方法,包括以下步骤:
S1:获取室内场景的数据集,并将数据集按比例分为训练集和测试集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211017228.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蜜丸生产工艺
- 下一篇:一种利于脱模的液压机及其使用方法