[发明专利]数据提取方法、装置及计算机可读存储介质在审
申请号: | 201811048056.9 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109344730A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 彭少毅;吕稚童;杜耀宏 | 申请(专利权)人: | 康美健康云服务有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06F17/27 |
代理公司: | 深圳市港湾知识产权代理有限公司 44258 | 代理人: | 微嘉 |
地址: | 518000 广东省深圳市福田区华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 光学字符识别系统 数据提取 纠错 计算机可读存储介质 合并 光学字符识别 纠错机制 原始图片 字符识别 可信度 两套 联合 | ||
1.一种数据提取方法,其特征在于,所述数据提取方法包括以下步骤:
分别通过第一光学字符识别系统以及第二光学字符识别系统,对原始图片进行字符识别,得到第一识别结果以及第二识别结果;
确定所述第一识别结果以及所述第二识别结果的第一相同部分,并基于所述第一相同部分确定原始图片中的待二次识别区域;
分别通过第一光学字符识别系统以及第二光学字符识别系统,对所述待二次识别区域进行字符识别,得到第三识别结果以及第四识别结果;
基于所述第一相同部分、所述第三识别结果以及所述第四识别结果,得到第一合并结果以及第二合并结果;
对所述第一合并结果进行纠错处理,得到第五识别结果,对所述第二合并结果进行纠错处理,得到第六识别结果;
确定所述第五识别结果以及所述第六识别结果的第二相同部分,获取所述第五识别结果中所述第二相同部分之外的第一内容对应的第一可信度结果,获取所述第六识别结果中所述第二相同部分之外的第二内容对应的第二可信度结果;
基于所述第一可信度结果以及所述第二可信度结果,从所述第一内容或所述第二内容中提取目标内容,组合所述第二相同部分以及所述目标内容,得到最终识别结果。
2.如权利要求1所述的数据提取方法,其特征在于,所述基于所述第一相同部分确定原始图片中的待二次识别区域的步骤包括:
确定所述第一相同部分在所述原始图片中对应的第一区域;
将所述原始图片中所述第一区域之外的区域作为待二次识别区域。
3.如权利要求1所述的数据提取方法,其特征在于,所述基于所述相同部分、所述第三识别结果以及所述第四识别结果,得到第一合并结果以及第二合并结果的步骤包括:
组合所述第一相同部分以及所述第三识别结果,得到第一合并结果,组合所述第一相同部分以及所述第四识别结果,得到第二合并结果。
4.如权利要求1所述的数据提取方法,其特征在于,所述对所述第一合并结果进行纠错处理,得到第五识别结果的步骤包括:
对所述第一合并结果进行分词处理,得到第一元素组,其中,所述第一元素组包含若干个元素;
基于与每个元素相邻的元素,确定每个元素的正确概率值;
基于预置的标准元素库,对正确概率值低于预设阈值的元素进行纠错,得到第五识别结果。
5.如权利要求1所述的数据提取方法,其特征在于,所述基于所述第一可信度结果以及所述第二可信度结果,从所述第一内容或所述第二内容中提取目标内容,组合所述第二相同部分以及所述目标内容,得到最终识别结果的步骤包括:
若所述第一可信度结果高于所述第二可信度结果,则从所述第一内容中提取目标内容,合所述第二相同部分以及所述目标内容,得到最终识别结果;
若所述第二可信度结果高于所述第一可信度结果,则从所述第二内容中提取目标内容,合所述第二相同部分以及所述目标内容,得到最终识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康美健康云服务有限公司,未经康美健康云服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811048056.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种识别道路中人员运动的方法
- 下一篇:基于神经网络的轻量级的人脸识别方法