[发明专利]一种光学字符识别重复检测方法和系统在审
申请号: | 202110153355.4 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112836693A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 崔大鹏 | 申请(专利权)人: | 北京秒针人工智能科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F16/43;G06F16/483 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
地址: | 100010 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 光学 字符 识别 重复 检测 方法 系统 | ||
1.一种光学字符识别重复检测方法,其特征在于,包括:
字符识别步骤,使用一光学字符识别工具对一多媒体文件进行识别;
结果保存步骤,将对所述多媒体文件的识别文本信息进行保存;
重复检测步骤,对所述多媒体文件进行识别前,查询是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本。
2.如权利要求1所述的光学字符识别重复检测方法,其特征在于,所述结果保存步骤包括:使用布隆过滤器对所述多媒体文件的识别文本信息进行保存。
3.如权利要求1所述的光学字符识别重复检测方法,其特征在于,所述结果保存步骤包括:使用一自定义保存工具和一布隆过滤器对所述多媒体文件的识别文本信息进行保存。
4.如权利要求3所述的光学字符识别重复检测方法,其特征在于,所述重复检测步骤包括:
第一检测步骤,查询在所述自定义保存工具中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述布隆过滤器。
5.如权利要求4所述的光学字符识别重复检测方法,其特征在于,所述重复检测步骤还包括:
第二检测步骤,查询在所述布隆过滤器中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述自定义保存工具和所述布隆过滤器。
6.一种光学字符识别重复检测系统,其特征在于,包括:
字符识别单元,使用一光学字符识别工具对一多媒体文件进行识别;
结果保存单元,将对所述多媒体文件的识别文本信息进行保存;
重复检测单元,对所述多媒体文件进行识别前,查询是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本。
7.如权利要求6所述的光学字符识别重复检测系统,其特征在于,所述结果保存单元包括:使用布隆过滤器对所述多媒体文件的识别文本信息进行保存。
8.如权利要求6所述的光学字符识别重复检测系统,其特征在于,所述结果保存单元包括:使用一自定义保存工具和一布隆过滤器对所述多媒体文件的识别文本信息进行保存。
9.如权利要求8所述的光学字符识别重复检测系统,其特征在于,所述重复检测单元包括:
第一检测模块,查询在所述自定义保存工具中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述布隆过滤器。
10.如权利要求9所述的光学字符识别重复检测系统,其特征在于,所述重复检测单元还包括:
第二检测模块,查询在所述布隆过滤器中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述自定义保存工具和所述布隆过滤器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京秒针人工智能科技有限公司,未经北京秒针人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110153355.4/1.html,转载请声明来源钻瓜专利网。