[发明专利]一种文本识别方法、存储介质及设备在审
申请号: | 202110267493.5 | 申请日: | 2021-03-12 |
公开(公告)号: | CN115082938A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 林建民 | 申请(专利权)人: | 广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/14;G06V30/18;G06V30/19 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 张晓芳 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 方法 存储 介质 设备 | ||
1.一种文本识别方法,其特征在于,包括:
在文本图像中提取至少两个文本行图像;
基于指定宽度值,并采用拼接方式对所述至少两个文本行图像进行拼接处理,以获得第一拼接图像集合;
基于空白像素对所述第一拼接图像集合中各第一拼接图像进行填充处理,以获得第二拼接图像集合,所述第二拼接图像集合中各第二拼接图像的宽度值满足所述指定宽度值;
对所述各第二拼接图像进行并行文本识别,以获得初始文本识别结果;
其中,所述拼接方式用于使得填充处理的空白像素最少。
2.如权利要求1所述的文本识别方法,其特征在于,所述对所述各第二拼接图像进行并行文本识别,以获得初始文本识别结果之后,还包括:
基于所述各文本行图像在所述文本图像中的初始位置,在所述初始文本识别结果中对所述各文本行图像对应的识别内容进行位置还原处理,以获得所述文本图像对应的目标文本识别结果。
3.如权利要求1所述的文本识别方法,其特征在于,所述基于指定宽度值,并采用拼接方式对所述至少两个文本行图像进行拼接处理,以获得第一拼接图像集合之前,还包括:
获取所述各文本行图像的高度值,基于设定高度值对所述各文本行图像的高度值进行调整。
4.如权利要求1所述的文本识别方法,其特征在于,所述基于指定宽度值,并采用拼接方式对所述至少两个文本行图像进行拼接处理,以获得第一拼接图像集合,包括:
获取所述各文本行图像的宽度值中的最大宽度值;
基于所述最大宽度值,并采用拼接方式对所述至少两个文本行图像进行拼接处理,以获得第一拼接图像集合。
5.如权利要求2所述的文本识别方法,其特征在于,所述采用拼接方式对所述至少两个文本行图像进行拼接处理,以获得第一拼接图像集合,包括:
采用拼接方式,确定所述至少两个文本行图像的图像拼接方案,在所述图像拼接方案中属于同一拼接行的文本行图像之间插入分隔图像,以获得第一拼接图像集合。
6.如权利要求1所述的文本识别方法,其特征在于,所述基于空白像素对所述第一拼接图像集合中各第一拼接图像进行填充处理,以获得第二拼接图像集合,包括:
当所述第一拼接图像集合中存在第一拼接图像的行宽度值小于所述指定宽度值时,采用空白像素对所述第一拼接图像进行填充,以获得第二拼接图像,所述空白像素的宽度值为所述指定宽度值与所述第一拼接图像的行宽度值的差;
当所述第一拼接图像集合中存在第一拼接图像的宽度值等于所述指定宽度值时,将所述第一拼接图像确定为第二拼接图像;
将所述第二拼接图像添加至第二拼接图像集合中。
7.如权利要求5所述的文本识别方法,其特征在于,所述对所述各第二拼接图像进行并行文本识别,以获得初始文本识别结果,包括:
对所述各第二拼接图像进行并行文本识别,以获得所述各第二拼接图像分别对应的识别内容以及所述分隔图像对应的分隔符。
8.如权利要求7所述的文本识别方法,其特征在于,所述基于所述各文本行图像在所述文本图像中的初始位置,在所述初始文本识别结果中对所述各文本行图像对应的识别内容进行位置还原处理,以获得所述文本图像对应的目标文本识别结果,包括:
在所述初始文本识别结果中,基于所述分隔符确定所述各文本行图像分别对应的文本内容;
基于所述各文本行图像在所述文本图像中的初始位置对所述各文本行图像分别对应的文本内容进行位置还原处理,以获得所述文本图像对应的目标文本识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司,未经广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110267493.5/1.html,转载请声明来源钻瓜专利网。