[发明专利]一种基于深度学习的自由格式文档识别方法在审
申请号: | 202011168354.9 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112348022A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 王文锋;傅启予;韩光祖;秦泽文;邓梁;朱志童 | 申请(专利权)人: | 富邦华一银行有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/00;G06K9/20;G06N3/04;G06N3/08 |
代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
地址: | 200120 上海市浦东新区自由贸易试验区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于深度学习的自由格式文档识别方法,包括以下步骤:定义模板,所述模板中包含多个矩形碎片的坐标位置;获取待识别文档;OCR引擎全文识别,以判断待识别文档所属模板;调用模板中所有矩形碎片的坐标位置,采用YOLO目标检测模型将模板中所有矩形碎片及其坐标位置对应在待识别文档中;根据矩形碎片及其坐标位置切割待识别文档,形成多个碎片文件;将多个碎片文件存入数据库,并将多个碎片文件传入消息队列中;OCR引擎继续识别消息队列中的碎片文件,得到识别结果;返回碎片文件和识别结果到数据库;完成识别。本发明通过两次采用OCR引擎进行识别,提高了识别的准确率;还通过提前定义模板及矩形碎片等,从而明确被识别内容的作用和意义。 | ||
搜索关键词: | 一种 基于 深度 学习 自由 格式 文档 识别 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富邦华一银行有限公司,未经富邦华一银行有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011168354.9/,转载请声明来源钻瓜专利网。