[发明专利]文字识别方法、系统、设备及存储介质在审
申请号: | 202210350587.3 | 申请日: | 2022-04-02 |
公开(公告)号: | CN114782951A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 王嘉欣;邱博;吴鹏;李健 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | G06V30/10 | 分类号: | G06V30/10;G06V30/146;G06V30/18;G06V30/19;G06V10/70;G06V10/82;G06K9/62;G06N3/04;G06N5/04 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 钟宗 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 方法 系统 设备 存储 介质 | ||
本发明提供了一种文字识别方法、系统、设备及存储介质,所述方法包括步骤:获取待识别的输入图像;基于第一预设网络模型对所述输入图像进行文本角度检测,以及角度校正,得到第一图像;其中,所述第一预设网络模型基于Winograd算法计算卷积;基于第二预设网络模型对所述第一图像进行文字定位,得到第一文本框;基于预设文本线构造算法对所述第一文本框进行文本线构造,得到包含文本行的第二文本框;以及基于第三预设网络模型对所述第二文本框进行文字识别,输出识别得到的文字;本申请利于加快文字识别模型的推理速度。
技术领域
本发明涉及文字识别技术领域,具体地说,涉及一种文字识别方法、系统、设备及存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指通过图像处理技术识别图像中的文字信息的技术,其在证件识别、车牌识别和纸质信息电子化等领域有广泛的应用。完整的OCR流程一般分为两步:文字定位和文字识别。文字定位是指准确定位出文字在图像中的坐标信息,文字识别是指识别出定位好的图像区域中是什么文字的过程。
现有技术中,在保证OCR模型识别精度的前提下,如何提升模型推理速度,是当前面临的一个问题。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种文字识别方法、系统、设备及存储介质,提高了中文文字识别模型OCR的推理速度且保证了识别精度。
为实现上述目的,本发明提供了一种文字识别方法,所述方法包括以下步骤:
S110,获取待识别的输入图像;
S120,基于第一预设网络模型对所述输入图像进行文本角度检测,以及角度校正,得到第一图像;其中,所述第一预设网络模型基于Winograd算法计算卷积;
S130,基于第二预设网络模型对所述第一图像进行文字定位,得到第一文本框;
S140,基于预设文本线构造算法对所述第一文本框进行文本线构造,得到包含文本行的第二文本框;以及
S150,基于第三预设网络模型对所述第二文本框进行文字识别,输出识别得到的文字。
可选地,步骤S130包括:
所述第二预设网络模型基于Winograd算法计算卷积。
可选地,步骤S140包括:
对预设文本线构造算法中的list动态数组预先分配一预设值的内存空间。
可选地,步骤S140还包括:
将预设文本线构造算法中的list动态数组转换为Numpy格式。
可选地,步骤S140还包括:
基于Numba编译器对预设文本线构造算法进行改写。
可选地,步骤S150包括:
基于ONNX Runtime框架对第三预设网络模型进行推理和部署。
可选地,步骤S150包括:
对第三预设网络模型采用多线程方式运行。
可选地,所述第三预设网络模型为CRNN模型。
可选地,第一预设网络模型为文字方向检测模型VGG16,第二预设网络模型为文字检测模型YOLO v3。
本发明还提供了一种文字识别系统,用于实现上述文字识别方法,所述系统包括:
待识别图像获取模块,获取待识别的输入图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210350587.3/2.html,转载请声明来源钻瓜专利网。