[发明专利]一种文字识别方法、装置、电子设备及存储介质在审
申请号: | 201910356344.9 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110263616A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 张学军;史忠伟 | 申请(专利权)人: | 五八有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 300450 天津市滨海新区经济技术开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字识别 存储介质 电子设备 模板图片 图片 图片切割 图像文本 文字提取 文字信息 选取规则 参照点 结构化 准确率 上框 申请 | ||
本申请公开了一种文字识别方法、装置、电子设备及存储介质,选取一张与待识别图片具有相同特征的图片作为模板图片,并根据选取规则,在模板图片上框选多个参照点。根据模板图片上的识别区域的位置,将待识别图片切割成多个图片块,并进行文字识别;在校验图片块上的文字信息与识别区域上的文字段信息相同的情况下,实现待识别图片的结构化文字提取,提高文字识别的准确率和效率。可见,本发明提供的方法、装置、电子设备及存储介质,可以实现对特定类型的图像文本的识别,识别效率更高。
技术领域
本申请涉及图像识别技术领域,尤其涉及一种文字识别方法、装置、电子设备及存储介质。
背景技术
公司员工在进行社交时会交换名片,公司在日常经营中也会产生大量票据,而名片和票据均为纸质形式,积累过多纸质名片和票据,存储起来占用空间,且既易丢失,又不便于目标名片或目标票据的查找。为了便于查看和保存,可将纸质名片和票据上的姓名、公司、身份证号和电话等文字信息进行识别并存储在终端中,以便于在需要时能够及时获取到相关信息。
现有技术中,通常采用样本对比的识别方式来识别名片或票据上的文字信息,具体的方法包括:预先准备一个样本,并将样本上指定位置的文字框选出来,形成识别模板;再将纸质名片或票据扫描成图片,将待识别图片与识别模板进行对比,在待识别图片上的某个信息与框选位置对应的文字匹配时,该匹配的信息即为待识别图片的文字识别结果。
但是,通过样本对比的识别方式进行文字识别时,需利用识别模板上的框选位置与待识别图片的全部区域进行匹配,由于匹配过程中需要进行大量的数据处理,所以会导致识别文字时花费的时间较长。
发明内容
本申请提供了一种文字识别方法、装置、电子设备及存储介质,以解决现有的识别方法识别效率低的问题。
第一方面,本申请提供了一种文字识别方法,包括以下步骤:
选择与待识别图片的特征相对应的模板图片;
在所述模板图片上框选数个参照点;
根据所述模板图片上的识别区域的位置,对所述待识别图片进行切割,得到多个图片块,所述识别区域为模板图片上的与待识别图片具有相同特征的区域;
识别所述图片块上的文字信息;
对比所述文字信息与参照点对应的识别区域上的文字段信息;
在所述文字信息和文字段信息对应的文字相同的情况下,提取所述待识别图片上的文字。
进一步地,所述参照点位于所述模版图片和待识别图片中的共同且位置不变的文字段处;且所述参照点位于所述模板图片的边缘和四个拐角处;且所述参照点位于所述模板图片上出现一次的文字段所在位置;且所述参照点的数量为大于等于4个;且同一所述参照点对应的文字在同一行且相邻。
进一步地,根据所述模板图片上的识别区域的位置,对所述待识别图片进行切割,得到多个图片块的过程,包括:
在所述模板图片上建立二维坐标系,确定每个识别区域的坐标;所述识别区域包括模板图片与待识别图片共同具有的文字段信息;
根据每个所述识别区域的坐标位置,对待识别图片进行切割,得到多个图片块;其中,每个所述图片块上包括一种识别区域对应的文字段信息。
进一步地,所述在文字信息和文字段信息对应的文字相同的情况下,提取所述待识别图片上的文字的过程,包括:
在文字信息和文字段信息对应的文字相同的情况下,确定当前图片块为可识别图片块;
根据所述可识别图片块的所在位置,确定对应的待识别位置,提取所述待识别图片的待识别位置上的文字。
进一步地,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五八有限公司,未经五八有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910356344.9/2.html,转载请声明来源钻瓜专利网。