[发明专利]一种基于tesseract引擎的文字识别方法、装置、设备及存储介质在审
申请号: | 201711172950.2 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107862312A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 朱秋华 | 申请(专利权)人: | 朱秋华 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62;G06N3/04;G06N3/08;G06F17/30 |
代理公司: | 北京远智汇知识产权代理有限公司11659 | 代理人: | 徐鹏飞 |
地址: | 214000 江苏省无*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种基于tesseract引擎的文字识别方法、装置、设备及存储介质。所述方法包括获取待识别图片;将待识别图片传输至tesseract引擎模块和云端服务器,tesseract引擎模块和云端服务器同时对待识别图片进行文字识别;采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,并以文字的形式输出识别结果,能够提高文字识别的准确率和识别效率。 | ||
搜索关键词: | 一种 基于 tesseract 引擎 文字 识别 方法 装置 设备 存储 介质 | ||
【主权项】:
一种基于tesseract引擎的文字识别方法,其特征在于,包括:S110、获取待识别图片;S120、将所述待识别图片传输至tesseract引擎模块和云端服务器,所述tesseract引擎模块和云端服务器同时对所述待识别图片进行文字识别获取两个识别结果,如果所述两个识别结果相同则对所述待识别图片中的文字进行识别,如果所述两个识别结果不同,则将所述待识别图片和待识别图片对于的来自云端服务器的识别结果存入本地文字库;S130、重复上述步骤直至完成所述本地文字库的升级;S140、采用所述tesseract引擎模块对所述待识别图片中的文字进行识别,采用轮廓笔画描述作为文字识别的第一识别引擎,采用边角特征数据库作为第二识别引擎;所述tesseract引擎模块首先查询所述本地文字库,寻找是否存在与所述待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络CNN进行文字识别,并以文字的形式输出识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱秋华,未经朱秋华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711172950.2/,转载请声明来源钻瓜专利网。