[发明专利]文本检测模型的训练方法、文本检测方法及装置有效
申请号: | 202111401778.X | 申请日: | 2021-11-24 |
公开(公告)号: | CN114065868B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 范峻植;曾定衡;王洪斌;周迅溢;蒋宁 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/14;G06V10/82;G06T3/40;G06V30/148;G06N3/04;G06N3/06;G06N3/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 徐晨影 |
地址: | 401120 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 模型 训练 方法 装置 | ||
本申请公开了一种文本检测模型的训练方法、文本检测方法及装置,用于在降低对硬件支撑的需求的同时,保证提高文本检测模型的训练速度和训练效果。所述文本检测模型的训练方法包括:对第一样本图片进行裁剪,第一样本图片对应第一文本区域标签;对裁剪得到的图片进行扩展,得到扩展图片及其对应的第二文本区域标签;对扩展图片进行缩放处理得到第一缩放图片,第一缩放图片的尺寸小于第一样本图片的尺寸;基于第一缩放图片和第二文本区域标签确定第一缩放图片对应的第三文本区域标签;将第一缩放图片输入文本检测模型,输出第一缩放图片的第一疑似文本区域;基于第一疑似文本区域、第三文本区域标签以及预设损失函数,更新文本检测模型的模型参数。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本检测模型的训练方法、文本检测方法及装置。
背景技术
文本检测的目的是要定位和标记图片中的文本区域。近年来,随着深度学习逐渐成为人工智能领域的研究热点和主流方案,目前的文本检测方法主要基于深度学习技术,通过大量标记有文本区域的图片来训练文本检测模型,然后利用文本检测模型检测待识别图片的文本区域。
目前常见的文本检测模型的训练方法,都是先对标记有文本区域的原图进行随机缩放后再进行裁剪,并将裁剪后的图片作为训练样本输入文本检测模型中进行训练。在对缩放后的图片进行裁剪时,如果直接裁剪大图进行训练,每一步迭代所需的计算量较大,导致训练速度变慢而增加训练时间,且还需要性能较好的硬件来支撑训练,增加训练成本;如果直接裁剪小图,由于小图包含的原图信息更少,就会导致模型训练效果较差。
发明内容
本申请实施例提供一种文本检测模型的训练、文本检测方法及装置,用于在降低对硬件支撑的需求的同时,保证提高文本检测模型的训练速度和训练效果。
第一方面,本申请提供一种文本检测模型的训练方法,包括:
对第一样本图片进行裁剪处理,所述第一样本图片对应第一文本区域标签,文本区域标签用于标记图片的实际文本区域;
对裁剪得到的图片进行扩展,得到扩展图片,以及基于所述第一文本区域标签,确定所述扩展图片对应的第二文本区域标签;
对所述扩展图片进行缩放处理得到第一缩放图片,所述第一缩放图片的尺寸小于所述第一样本图片的尺寸;
基于所述第一缩放图片和所述第二文本区域标签,确定所述第一缩放图片对应的第三文本区域标签;
将所述第一缩放图片输入文本检测模型,输出所述第一缩放图片的第一疑似文本区域;
基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数,更新所述文本检测模型的模型参数。
可以看出,在本申请实施例中,由于输入文本检测模型中的缩放图片的尺寸小于原始样本图片的尺寸,使得训练过程中的计算量更少,进而可以降低训练过程对硬件的要求,还可以缩短文本检测模型的训练时间,提高文本检测模型的训练速度;另外,缩放图片是从原始样本图片裁剪出的图片进行扩展后再进行缩放得到的,相较于直接对原始的样本图片进行缩放的方式,能够减少图片缩放过程中造成的图片信息损失,使得缩放图片能够保留原始样本图片的较多有用信息,进而可以提高模型的训练效果。
第二方面,本申请提供一种文本检测方法,包括:
获取待识别图片;
将所述待识别图片输入预先训练的文本检测模型,输出所述待识别图片的疑似文本区域;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111401778.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢管切割装置
- 下一篇:一种单相全桥逆变器主电路及单相全桥逆变器