[发明专利]自定义模板文字识别的实现方法及系统有效
申请号: | 202110140530.6 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112836632B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 吴运祥 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/75;G06V10/22;G06V10/46;G06V10/80;G06V10/82;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自定义 模板 文字 识别 实现 方法 系统 | ||
本发明公开了一种自定义模板文字识别的实现方法及系统,属于人工智能文字识别领域,本发明要解决的技术问题为如何卡证、票据等转化成图片后,实现图片结构化文字识别,采用的技术方案为:该方法具体如下:选择一张图片作为模板图片;在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;基于特征点映射关系,使用单应性变换计算目标图片到模板图片的转换矩阵。
技术领域
本发明涉及人工智能文字识别领域,具体地说是一种自定义模板文字识别的实现方法及系统。
背景技术
近年来,人工智能技术取得了快速发展,人脸识别、文字识别、医学图像分析、语音识别等技术已经实现商业化应用。其中,文字识别技术是指对图像中的文字进行检测然后识别出图像中的文字内容,在图像视频文本识别、文档识别、卡证识别等领域具有极其重要的意义,能够实现各类卡证和文件的电子化,可应用于纸质文件分类归档、信息统计分析、关键内容提取等场景,有效降低人工录入成本,大幅度提升信息管理效率。对于卡证、票据等固定版式图片的文字识别,需要提供专门接口,在文字识别之后进行后处理操作,以提取出图片中的关键字段信息,操作繁琐,耗时费力。故如何卡证、票据等转化成图片后,实现图片结构化文字识别是目前亟待解决的问题。
发明内容
本发明的技术任务是提供一种自定义模板文字识别的实现方法及系统,来解决如何卡证、票据等转化成图片后,实现图片结构化文字识别的问题。
本发明的技术任务是按以下方式实现的,一种自定义模板文字识别的实现方法,该方法具体如下:
选择一张图片作为模板图片;
在模板图片上框选若干个矩形框作为文本识别区域,同时记录并保存文本识别区域的坐标信息;
识别一张目标图片时,分别对目标图片与模板图片进行特征点检测;
基于特征点采用近似最近邻算法FLANN实现特征点匹配,即目标图片与模板图片的特征点之间的映射;
基于特征点映射关系,使用单应性变换计算目标图片到模板图片的转换矩阵;
基于转换矩阵使用透视变换将目标图片转换成与模板图片处于同一坐标体系下,从而获取对应的文本识别区域坐标信息;
根据在模板图片中框选出的文本识别区域的坐标信息截取透视变换后的目标图片;
逐一对截取出的目标图片中的文本识别区域进行文字识别,并返回结构化识别结果。
作为优选,所述模板图片要求如下:
清晰度及尺寸要求:1024*960;
格式要求:JPG格式或者PNG格式;
大小要求:不超过2MB;
所述目标图片的格式要求为JPG格式或者PNG格式。
作为优选,对每个文本识别区域进行命名,结合文本识别区域名称返回结构化识别结果;
坐标信息包括矩形框的左上角坐标与右下角坐标。
作为优选,特征点检测采用SIFT(尺度不变特征变换)算法,SIFT算法分别对目标图片和模板图片进行特征点检测。
更优地,文字识别具体如下:
文字检测:检测图片中的文字,确定文字在图片中的坐标区域,同时通过文字检测单元检测中英文类型的文本以及水平与垂直排列的文本区域,得到四边形文字区域四个顶点的坐标信息;其中,文字检测具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110140530.6/2.html,转载请声明来源钻瓜专利网。