[发明专利]自定义模板文字识别的实现方法及系统有效
申请号: | 202110140530.6 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112836632B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 吴运祥 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/75;G06V10/22;G06V10/46;G06V10/80;G06V10/82;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自定义 模板 文字 识别 实现 方法 系统 | ||
1.一种自定义模板文字识别的实现方法,其特征在于,该方法具体如下:
选择一张图片作为模板图片;
在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;
识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;其中,特征点检测采用SIFT算法,SIFT算法分别对目标图片和模板图片进行特征点检测;
基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;
基于特征点映射关系,使用单应性变换计算目标图片到模板图片的转换矩阵;
基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下,从而获取对应的文本识别区域坐标信息;
根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片;
逐一对截取出的目标图片中的文本识别区域进行文字识别,并返回结构化识别结果;其中,文字识别具体如下:
文字检测:检测图片中的文字,确定文字在图片中的坐标区域,同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域,得到四边形文字区域四个顶点的坐标信息;其中,文字检测具体如下:
对整张目标图片进行深层次特征的提取;
融合深层次特征的提取的特征,将不同的特征进行融合,补充不同尺寸目标信息来实现对不同尺寸物体的检测;
输出内容,输出的内容包括文本的置信度以及文本框坐标信息;其中,文本的置信度是指像素点在文本框内的概率,即输出像素点处于文本框边界以及位于文本框头部还是尾部的概率;文本框的坐标信息包括文本框的左上和/或右上X坐标、左上和/或右上Y坐标、左下和/或右下X坐标、左下和/或右下Y坐标;
文本区域识别:识别每个文本区域图片中的文字,并具备识别中文、英文、数字及标点符号的能力;其中,文本区域识别具体如下:
对目标图片中检测出的文本识别区域进行深层次特征的提取;
使用双向LSTM来处理不定长序列预测的问题,预测不定长文本。
2.根据权利要求1所述的自定义模板文字识别的实现方法,其特征在于,所述模板图片要求如下:
清晰度及尺寸要求:1024*960;
格式要求:JPG格式或者PNG格式;
大小要求:不超过2MB;
所述目标图片的格式要求为JPG格式或者PNG格式。
3.根据权利要求1所述的自定义模板文字识别的实现方法,其特征在于,对每个文本识别区域进行命名,结合文本识别区域名称返回结构化识别结果;
坐标信息包括矩形框的左上角坐标与右下角坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110140530.6/1.html,转载请声明来源钻瓜专利网。