[发明专利]文本朝向的确定方法、装置、终端及存储介质在审
申请号: | 202210431188.X | 申请日: | 2022-04-22 |
公开(公告)号: | CN114782673A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 孙刈凡;杨青 | 申请(专利权)人: | 度小满科技(北京)有限公司 |
主分类号: | G06V10/24 | 分类号: | G06V10/24;G06N3/04;G06N3/08 |
代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 朝向 确定 方法 装置 终端 存储 介质 | ||
本申请公开了一种文本朝向的确定方法、装置、终端及存储介质,方法包括:获取原始图像集;依次对原始图像集中的原始图像进行缩放、数据增强,得到目标图像集;利用目标图像集对初始互学习模型进行训练,得到目标互学习模型;将待测图像输入目标互学习模型,得到待测图像中文本的朝向。本发明通过对原始图像进行缩放和数据增强,不仅保证了原始图像中的文本不变形,还可实现动态均衡采样,避免不均衡造成的模型过拟合,最大化模型辨识能力,此外,通过引入互学习的训练策略,在保证模型推理速度的同时,显著提升待检测图像中文本朝检测的准确度。
技术领域
本申请涉及文本检测技术领域,具体而言,涉及一种文本朝向的确定方法、装置、终端及存储介质。
背景技术文本检测与识别是图像处理的重要步骤,而在文本检测与识别时,会默认文本的朝向为向上。当采集的图像中的文本的朝向不是向上的,会影响文本检测与识别的准确度。因此,如何准确识别图像中文本的朝向成为亟待解决的问题。
目前,图像中文本的朝向检测主要采用ResNet系列模型、Densenet模型、Mobilenet系列模型等分类模型对图像进行分类训练,再通过训练后的分类模型对待检测图像中文本的朝向进行识别,确定图像中文本的朝向。
但是,上述方法中的模型鲁棒性差,导致识别出的图像中文本的朝向准确度低。
发明内容
本申请的主要目的在于提供一种文本朝向的确定方法、装置、终端及存储介质,以解决相关技术中存在的识别出的图像中文本的朝向准确度低的问题。
为了实现上述目的,第一方面,本申请提供了一种文本朝向的确定方法,包括:
获取原始图像集;
依次对原始图像集中的原始图像进行缩放、数据增强,得到目标图像集;
利用目标图像集对初始互学习模型进行训练,得到目标互学习模型;
将待测图像输入目标互学习模型,得到待测图像中文本的朝向,其中,原始图像和待测图像中至少包括文本。
在一种可能的实现方式中,依次对原始图像集中的原始图像进行缩放、数据增强,得到目标图像集,包括:
采用预设方法对原始图像进行缩放,得到缩放后的原始图像;
对缩放后的原始图像进行数据增强,得到目标图像;
对目标图像进行汇总,得到目标图像集。
在一种可能的实现方式中,采用预设方法对原始图像进行缩放,得到缩放后的原始图像,包括:
对原始图像的边长进行识别,得到原始图像的初始长度和初始宽度;
依次将初始长度调整至目标长度、初始宽度调整至目标宽度,得到缩放后的原始图像,其中,目标长度和目标宽度相等。
在一种可能的实现方式中,依次将初始长度调整至目标长度、初始宽度调整至目标宽度,得到缩放后的原始图像,包括:
将初始长度调整至目标长度,并根据初始长度和目标长度,确定缩放系数;
将初始宽度按照缩放系数进行调整,得到中间宽度;
利用预设拼接方式将中间宽度调整至目标宽度,得到缩放后的原始图像。
在一种可能的实现方式中,对缩放后的原始图像进行数据增强,得到目标图像,包括:
每隔预设角度将缩放后的原始图像进行旋转,得到多个中间图像;
将多个中间图像中的每个中间图像匹配对应的文本朝向标签,得到多个携带文本朝向标签的中间图像;
将多个携带文本朝向标签的中间图像作为目标图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210431188.X/2.html,转载请声明来源钻瓜专利网。