[发明专利]一种针对国产操作系统的图片内容提取方法在审

专利信息
申请号: 201811598225.6 申请日: 2018-12-26
公开(公告)号: CN109858350A 公开(公告)日: 2019-06-07
发明(设计)人: 傅涛;王力;郑轶;梁旭 申请(专利权)人: 江苏博智软件科技股份有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06F9/4401;G06F9/455
代理公司: 暂无信息 代理人: 暂无信息
地址: 210012 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 内容提取 操作系统 虚拟机管理 代理服务 透明代理 图片内容 客户机操作系统 提取文本数据 代理客户端 客户机硬件 内容识别 提取服务 图片文件 自动启动 兼容性 客户端 客户机 侵入性 残留 中文
【说明书】:

发明提供了一种针对国产操作系统的图片内容提取方法。所述方法包括基于国产操作系统的live CD子系统,虚拟机管理子系统,MODI内容提取子系统,以及透明代理子系统。首先使用liveCD子系统引导客户机启动,然后虚拟机管理子系统会自动启动MODI内容提取子系统,透明代理子系统客户端负责将图片文件传入位于MODI内容提取子系统中的代理服务端,并传给提取服务模块,后者提取文本数据再由代理服务端传回代理客户端,完成内容提取。本方法具有较高的中文内容识别率,对客户机操作系统环境无侵入性,不残留使用痕迹,对客户机硬件具有广泛兼容性。

技术领域

本发明涉及信息安全领域,尤其涉及一种保密单位的软硬件国产化的内容审计应用领域。

背景技术

现有国产操作系统多是基于Linux内核、根据Ubuntu或CentOS社区发行版二次开发而来。目前在这一平台上的图片内容提取的主流方法是基于Google Tesseract项目的OCR技术,但对于中文的识别率较低,并且该方法需要安装软件,对客户机操作系统有侵入性,也会带来额外的依赖冲突,导致软件兼容性不佳,而识别率较高的方案MicrosoftOffice Document Imaging只能应用于Windows操作系统。现状需要突破现有技术使用方式、思路的局限性,对不同平台相关技术特点进行有机结合,从而解决国产操作系统中图片内容提取中文识别率较低问题。

发明内容

鉴于现有技术的缺陷,本发明创造提出一种针对国产操作系统的图片内容提取方法,现有的Linux(国产操作系统)平台的图片内容提取方法是基于Tesseract的OCR技术,中文识别率较低,为提高图片的中文识别率,提出了国产liveCD操作系统 与 包含MicrosoftOffice Document Imaging 组件的Windows虚拟机相结合的方式来解决。

采用的技术解决方案如下:

一种针对国产操作系统的图片内容提取方法,其工作步骤如下:

步骤1:使用国产liveCD操作系统引导客户机启动;

步骤2:同时启动内置Windows虚拟机以及Microsoft Office Document Imaging 图片内容提取服务;

步骤3:代理客户端向其传入图片文件,代理服务端将提取后的文本数据传回客户端,供后续内容审计使用。

有益效果:

与现有技术相比,本发明创造的优点在于:

优点1图片中文识别率较高;

优点2对客户机操作系统环境无侵入性,不安装软件,不升级/覆盖系统组件,无软件依赖冲突;

优点3完全在内存中进行提取操作,不会在客户机残留垃圾、使用痕迹。

附图说明

图1为本发明创造的流程示意图。

具体实施方式:

下面结合附图1,对本发明创造做进一步阐述:

一种针对国产操作系统的图片内容提取方法,其实施例如下:

步骤1:使用国产liveCD操作系统引导客户机启动,整个操作系统(包括文件系统)均处于内存当中,并自动挂载客户机磁盘;

步骤2:虚拟机自启动脚本引导使用预置Windows镜像启动内容提取子系统虚拟机,该系统启动后会启动Microsoft Office Document Imaging 图片内容提取服务以及透明代理服务端;

步骤3:用户传入待提取的图片文件路径给透明代理客户端,客户端读取文件内容并通过TCP协议发送给Windows虚拟机内的透明代理服务端

步骤4:代理服务端将图片文件传给MODI内容提取服务进行文字识别,提取后得到文本数据再由代理服务端发送给代理客户端,完成整个图片内容提取流程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏博智软件科技股份有限公司,未经江苏博智软件科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811598225.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top