[发明专利]识别转换图像文件的方法、系统、计算机设备及存储介质有效
申请号: | 202011478173.6 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112446373B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 邓文活 | 申请(专利权)人: | 万兴科技(湖南)有限公司 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06F40/166;G06F9/451 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 于建 |
地址: | 410000 湖南省长沙市高新*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 转换 图像文件 方法 系统 计算机 设备 存储 介质 | ||
1.一种识别转换图像文件的方法,其特征在于,包括:
获取图像文件的图像页面,将所述图像页面推送至OCR队列中,利用OCR线程取出所述OCR队列中的图像页面并进行OCR识别,获取所述图像页面中的文字信息;
将获取到的所述图像页面中的文字信息转换为文本,利用所述文本生成OCR页面,并保存至缓存中;
利用所述缓存中的OCR页面替换所述图像页面;
其中,所述利用所述缓存中的OCR页面替换所述图像页面,包括:
当接收到替换指令时,获取需替换的图像页面,检索所述缓存,判断是否存在所述图像页面对应的OCR页面;
若存在对应的OCR页面,则提取所述OCR页面,并替换对应的图像页面;
若不存在对应的OCR页面,则将所述图像页面推送至OCR队列进行OCR识别;
所述若不存在对应的OCR页面,则将所述图像页面推送至OCR队列进行OCR识别,包括:
对所述图像文件的同一图像页面进行区域划分,得到多个区域文件并渲染为对应的多个图像页面块;
将包含有文字内容的图像页面块先推送至所述OCR队列中,将不包含文字内容的图像页面块后推送至所述OCR队列中;
所述对所述图像文件的同一图像页面进行区域划分,得到多个区域文件并渲染为对应的多个图像页面块,包括:
获取所述图像文件的同一图像页面的横向像素与纵向像素的颜色分布,并判断所述横向像素与纵向像素的颜色是否一致;
若所述横向像素与纵向像素的颜色一致,则根据所述所述横向像素与纵向像素的位置进行区域划分,得到多个区域文件并渲染为对应的多个图像页面块。
2.根据权利要求1所述的识别转换图像文件的方法,其特征在于,所述利用所述文本生成OCR页面,并保存至缓存中,包括:
获取所述文件页面中的文字信息的位置,并使用底图对所述文件页面中的文字信息进行遮挡处理;
在对应位置上添加与所述文字信息对应的文本,将添加文本后的文件页面生成OCR页面,并保存至缓存的OCR数据集合中。
3.根据权利要求1所述的识别转换图像文件的方法,其特征在于,还包括:
当接收到对所述图像页面的修改操作时,删除所述缓存中与所述图像页面对应的OCR页面,并将修改后的所述图像页面推送至所述OCR队列中。
4.根据权利要求1所述的识别转换图像文件的方法,其特征在于,所述图像文件为PDF文件。
5.一种识别转换图像文件的系统,其特征在于,包括:
文字信息获取单元,用于获取图像文件的图像页面,将所述图像页面推送至OCR队列中,利用OCR线程取出所述OCR队列中的图像页面并进行OCR识别,获取所述图像页面中的文字信息;
OCR页面生成单元,用于将获取到的所述图像页面中的文字信息转换为文本,利用所述文本生成OCR页面,并保存至缓存中;
图像页面替换单元,用于利用所述缓存中的OCR页面替换所述图像页面;
其中,所述图像页面替换单元包括:
OCR页面判断单元,用于当接收到替换指令时,获取需替换的图像页面,检索缓存,判断是否存在图像页面对应的OCR页面;
OCR页面替换单元,用于若存在对应的OCR页面,则提取OCR页面,并替换对应的图像页面;
图像页面推送单元,用于若不存在对应的OCR页面,则将图像页面推送至OCR队列进行OCR识别;
所述图像页面推送单元包括:
区域划分单元,用于对图像文件的同一图像页面进行区域划分,得到多个区域文件并渲染为对应的多个图像页面块;
OCR队列推送单元,用于将包含有文字内容的图像页面块先推送至OCR队列中,将不包含文字内容的图像页面块后推送至OCR队列中;
所述区域划分单元包括:
像素颜色判断单元,用于获取图像文件的同一图像页面的横向像素与纵向像素的颜色分布,并判断横向像素与纵向像素的颜色是否一致;
像素位置划分单元,用于若横向像素与纵向像素的颜色一致,则根据横向像素与纵向像素的位置进行区域划分,得到多个区域文件并渲染为对应的多个图像页面块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万兴科技(湖南)有限公司,未经万兴科技(湖南)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011478173.6/1.html,转载请声明来源钻瓜专利网。