[发明专利]光学字符识别系统及信息提取方法在审
申请号: | 201811113489.8 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109190594A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 赵淦森;列海权;徐岗;赵淑娴;纪求华;黄伟雄;李振宇;林成创;李胜龙;蔡斯凯;梁昕;曲成;唐境灿 | 申请(专利权)人: | 广东蔚海数问大数据科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 徐丽 |
地址: | 510000 广东省广州市天河区天河北路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本信息 光学字符识别系统 信息提取 排版方式 提取信息 光学字符识别 方法提取 工作效率 信息文件 分类 调用 存储 | ||
本公开提供一种光学字符识别系统及信息提取方法,涉及光学字符识别领域。本公开提供的光学字符识别系统及信息提取方法在光学字符识别系统存储不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法,在提取信息时,将获得待提取的信息文件化为文本信息,再对文本信息进行分类,得到文本信息所属类别,并根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法,通过调用得到的模板方法提取文本信息中的信息;本公开提供的光学字符识别系统及信息提取方法简化文本信息的分类及文本信息的信息提取操作,提高了工作效率。
技术领域
本公开涉及光学字符识别领域,具体而言,涉及一种光学字符识别系统及信息提取方法。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。主要针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。经研究,现有的光学字符识工作效率有待提升。
发明内容
有鉴于此,本公开提供一种光学字符识别系统及信息提取方法。
本公开提供一种光学字符识别系统,包括信息提取装置,所述信息提取装置包括存储模块、识别模块、分类模块及提取模块。
所述存储模块用于储存不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法。
所述识别模块用于识别待提取的信息文件并将所述信息文件转化为文本信息。
所述分类模块用于对所述文本信息进行分类,得到所述文本信息所属类别。
所述提取模块用于根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法并调用所述模板方法提取所述文本信息中的信息。
进一步的,所述光学字符识别系统还包括信息分类装置,所述信息提取装置还包括训练模块,所述训练模块包括分类器模型。
所述信息分类装置用于对不同的信息文件进行分类,得到不同的信息文件的类别。
所述识别模块用于对不同的信息文件进行识别并转化为相应的文本信息,并根据不同的信息文件的类别对相应的文本信息进行分类标识。
所述训练模块用于调用所述分类器模型并根据分类标识对不同的文本信息进行训练,得到文本分类模型。
所述分类模块用于根据所述文本分类模型对所述文本信息进行分类。
进一步的,所述光学字符识别系统还包括数据库。
所述数据库用于将提取到的所述文本信息中的信息进行保存。
本公开提供一种信息提取方法,应用于上述的光学字符识别系统,所述光学字符识别系统预存有不同类别的文本信息的信息排版方式,以及不同信息排版方式对应的提取信息的模板方法,所述方法包括:
获得待提取的信息文件,将所述信息文件转化为文本信息。
调用文本分类模型,对所述文本信息进行分类,得到所述文本信息所属类别。
根据所述文本信息所属类别,得到所述文本信息的信息排版方式以及对应的提取信息的模板方法。
调用得到的所述模板方法提取所述文本信息中的信息。
进一步的,所述方法还包括:
将提取到的所述文本信息中的信息进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东蔚海数问大数据科技有限公司,未经广东蔚海数问大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811113489.8/2.html,转载请声明来源钻瓜专利网。