[发明专利]基于图注意力网络的混凝土坝缺陷图像描述自动生成方法有效
申请号: | 202210664943.9 | 申请日: | 2022-06-13 |
公开(公告)号: | CN114898121B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 隋佳宏;周华;迟福东;毛莺池;陈豪;万旭;赵欢;庞博慧;余记远;郭锐;吴光耀;王顺波 | 申请(专利权)人: | 河海大学;华能澜沧江水电股份有限公司;华能集团技术创新中心有限公司 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/42;G06N3/0455;G06N3/0464;G06N3/08 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 网络 混凝土 缺陷 图像 描述 自动 生成 方法 | ||
本发明公开了一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,包括以下步骤:1)利用多层卷积神经网络提取缺陷图像的局部网格特征和整幅图像特征,进行图像编码;2)构建网格特征交互图,对缺陷图像的网格视觉特征和全局图像特征进行融合编码;3)通过图注意力网络更新优化全局和局部特征,充分利用改进的视觉特征进行缺陷描述。本发明构建网格特征交互图,并利用图注意力网络更新节点信息,将特征提取任务作为图节点分类任务实现,不会增加计算开销,同时提高了性能。本发明可以捕捉缺陷图像的全局图像信息,并捕获局部网格特征的潜在交互,加深了对缺陷图像内容的理解,生成的描述文本能够准确并连贯地描述缺陷信息。
技术领域
本发明涉及一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,具体是一种为输入的混凝土坝缺陷图像自动生成自然语言描述的方法,属于计算机视觉和自然语言处理的多模态技术领域。
背景技术
我国已建成数百座混凝土重力坝,大坝在外界环境长期作用下始终处于老化损伤演化和新损伤不断形成的过程,大坝表面的缺陷常常反映了它的老化状况,因此有必要定期进行表面缺陷检测以评估其演变。中华人民共和国电力行业标准《混凝土坝安全监测技术规范》明确指出应当委派专员定期对混凝土坝进行检查与安全评价,并出具必要的专项检查报告和总结报告,以维护大坝安全运行,然而混凝土坝缺陷识别问题尚缺乏研究。
近年来,基于区域的视觉特征已成为图像描述生成等视觉—语言任务的主要方法。相对于整张图像来说,图像的网格特征包含更细粒度的各类目标,更加有利于识别混凝土坝的缺陷。对细粒度目标相关的缺陷内容进行编码无疑会优化缺陷识别,得到更具体、更精准的缺陷特征表示。现有的研究焦点是通过注意力机制建模视觉和语言特征之间的相互作用,以获得更加丰富可靠的图像描述,虽然可以使之在描述生成过程中关注最相关的图像特征,但是没有充分利用图像特征之间的交互关系,而且传统的注意力机制不能满足网格特征复杂的交互关系,同时在整合全局图像信息方面也存在一些问题。
发明内容
发明目的:为了工程监测中后续巡检报告的初步生成,保障巡检流程的规范化管理,本发明结合混凝土表面缺陷类型不确定、几何形态各异的特点,研发了基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。网格特征作为图像描述生成的视觉表示具有一定的优势,然而网格特征的局部感受野较小,卷积神经网络只能学习到目标的局部特征,缺乏空间和全局信息。为了更好地使用网格特征作为图像描述生成模型的主要视觉表示,引入全局特征来指导优化更新网格特征可提高视觉表示的准确性。因此,本发明提出全局覆盖与局部部位兼顾的混凝土缺陷评估新工艺,将视觉特征提取问题作为节点分类任务来实现,借助全局图像特征增强视觉表示能力,利用图注意力网络将相邻的网格特征和全局特征相结合进行信息提取,能够有效地捕获全局上下文信息和局部信息,相对于已有的混凝土缺陷图像目标检测方法提高了分类精度,为完成大坝安全巡检报告提供直观的文本依据,降低人工整合的复杂度。
技术方案:一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,包括如下步骤:
1)全局特征和网格特征提取,利用多层卷积神经网络分别提取缺陷图像的全局特征和网格特征;
2)构建网格特征交互图,将全局特征和网格特征作为节点输入;
3)全局特征和网格特征更新,利用图注意力网络更新优化2)中构建的网格特征交互图中的节点信息,得到更新后的全局特征和网格特征;
4)基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述。
所述1)中,利用在Visual Genome数据集上预训练的Faster R-CNN模型进行全局特征和网格特征提取,特别的是,Faster R-CNN模型使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为缺陷图像的网格特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学;华能澜沧江水电股份有限公司;华能集团技术创新中心有限公司,未经河海大学;华能澜沧江水电股份有限公司;华能集团技术创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210664943.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像特征提取装置及方法
- 下一篇:L形木条切割设备及切割方法