[发明专利]基于语义增强的图像识别模型的训练方法和训练装置在审
申请号: | 202111306870.8 | 申请日: | 2021-11-05 |
公开(公告)号: | CN114120074A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 孙逸鹏;安容巧;魏翔;王龙超;姚锟;韩钧宇;刘经拓;丁二锐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/764;G06V10/82;G06V10/74;G06K9/62;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳;张鹏 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 增强 图像 识别 模型 训练 方法 装置 | ||
根据本公开的实施例,提供了基于语义增强的图像识别模型的训练方法和装置、用于图像识别的方法和装置、电子设备以及计算机可读存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像处理、图像识别等场景。基于语义增强的图像识别模型的训练方法包括:从输入的未标注且无文字描述的第一图像中,提取第一图像的第一特征表示;基于第一特征表示,计算第一损失函数;从输入的未标注且具有原始文字描述的第二图像中,提取第二图像的第二特征表示;基于第二特征表示,计算第二损失函数;和基于第一损失函数和第二损失函数的融合,训练图像识别模型。以此方式,能够更有效且低成本地对图像识别模型进行训练。
技术领域
本公开的实施例主要涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像处理、图像识别等场景。更具体地,涉及基于语义增强的图像识别模型的训练方法和训练装置、用于图像识别的方法和装置、电子设备和计算机可读存储介质。
背景技术
近年来,随着计算机软硬件技术的发展,人工智能和机器学习领域也得到了巨大的进步。该技术也被广泛应用于图像处理及图像识别等应用场景。对此,核心的问题是如何能够更高效更准确且更低成本地对相关模型进行训练。
目前的训练方式主要包括有监督式训练和无监督式训练。具体到视觉图像领域,有监督式训练需要以大量的具有标注数据的图像作为输入图像。然而,对图像的标注过程需要付出大量人工成本,而购买这种具有标注的图像又非常昂贵。相对地,无监督式训练虽然能够节省标注成本,但是由于缺少语义监督信息,导致经训练的模型在解决实际的下游任务时(例如图像分类和物体检测等)表现不佳。
发明内容
根据本公开的示例实施例,提供了基于语义增强的图像识别模型的训练方案。
在本公开的第一方面中,提供了一种基于语义增强的图像识别模型的训练方法。该方法包括:从输入的未标注且无文字描述的第一图像中,提取第一图像的第一特征表示;基于第一特征表示,计算第一损失函数;从输入的未标注且具有原始文字描述的第二图像中,提取第二图像的第二特征表示;基于第二特征表示,计算第二损失函数;和基于第一损失函数和第二损失函数的融合,训练图像识别模型。
在本公开的第二方面中,提供了一种用于图像识别的方法。该方法包括:获取待识别图像;基于图像识别模型对待识别图像进行识别;其中图像识别模型是基于本公开的第一方面的基于语义增强的图像识别模型的训练方法得到的。
在本公开的第三方面中,提供了一种基于语义增强的图像识别模型的训练装置。该装置包括:第一特征提取模块,被配置为从输入的未标注且无文字描述的第一图像中,提取第一图像的第一特征表示;第一计算模块,被配置为基于第一特征表示,计算第一损失函数;第二特征提取模块,被配置为从输入的未标注且具有原始文字描述的第二图像中,提取第二图像的第二特征表示;第二计算模块,被配置为基于第二特征表示,计算第二损失函数;和融合训练模块,被配置为基于第一损失函数和第二损失函数的融合,训练图像识别模型。
在本公开的第四方面中,提供了一种用于图像识别的装置。该装置包括:图像获取模块,被配置为获取待识别图像;图像识别模块,被配置为基于图像识别模型对待识别图像进行识别;其中图像识别模型是基于本公开的第三方面的基于语义增强的图像识别模型的训练装置得到的。
在本公开的第五方面中,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面、第二方面的方法。
在本公开的第六方面中,提供了一种计算机可读存储介质。在该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面、第二方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111306870.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序