[发明专利]一种针对国产操作系统的图片内容提取方法在审
申请号: | 201811598225.6 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109858350A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 傅涛;王力;郑轶;梁旭 | 申请(专利权)人: | 江苏博智软件科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06F9/4401;G06F9/455 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210012 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容提取 操作系统 虚拟机管理 代理服务 透明代理 图片内容 客户机操作系统 提取文本数据 代理客户端 客户机硬件 内容识别 提取服务 图片文件 自动启动 兼容性 客户端 客户机 侵入性 残留 中文 | ||
本发明提供了一种针对国产操作系统的图片内容提取方法。所述方法包括基于国产操作系统的live CD子系统,虚拟机管理子系统,MODI内容提取子系统,以及透明代理子系统。首先使用liveCD子系统引导客户机启动,然后虚拟机管理子系统会自动启动MODI内容提取子系统,透明代理子系统客户端负责将图片文件传入位于MODI内容提取子系统中的代理服务端,并传给提取服务模块,后者提取文本数据再由代理服务端传回代理客户端,完成内容提取。本方法具有较高的中文内容识别率,对客户机操作系统环境无侵入性,不残留使用痕迹,对客户机硬件具有广泛兼容性。
技术领域
本发明涉及信息安全领域,尤其涉及一种保密单位的软硬件国产化的内容审计应用领域。
背景技术
现有国产操作系统多是基于Linux内核、根据Ubuntu或CentOS社区发行版二次开发而来。目前在这一平台上的图片内容提取的主流方法是基于Google Tesseract项目的OCR技术,但对于中文的识别率较低,并且该方法需要安装软件,对客户机操作系统有侵入性,也会带来额外的依赖冲突,导致软件兼容性不佳,而识别率较高的方案MicrosoftOffice Document Imaging只能应用于Windows操作系统。现状需要突破现有技术使用方式、思路的局限性,对不同平台相关技术特点进行有机结合,从而解决国产操作系统中图片内容提取中文识别率较低问题。
发明内容
鉴于现有技术的缺陷,本发明创造提出一种针对国产操作系统的图片内容提取方法,现有的Linux(国产操作系统)平台的图片内容提取方法是基于Tesseract的OCR技术,中文识别率较低,为提高图片的中文识别率,提出了国产liveCD操作系统 与 包含MicrosoftOffice Document Imaging 组件的Windows虚拟机相结合的方式来解决。
采用的技术解决方案如下:
一种针对国产操作系统的图片内容提取方法,其工作步骤如下:
步骤1:使用国产liveCD操作系统引导客户机启动;
步骤2:同时启动内置Windows虚拟机以及Microsoft Office Document Imaging 图片内容提取服务;
步骤3:代理客户端向其传入图片文件,代理服务端将提取后的文本数据传回客户端,供后续内容审计使用。
有益效果:
与现有技术相比,本发明创造的优点在于:
优点1图片中文识别率较高;
优点2对客户机操作系统环境无侵入性,不安装软件,不升级/覆盖系统组件,无软件依赖冲突;
优点3完全在内存中进行提取操作,不会在客户机残留垃圾、使用痕迹。
附图说明
图1为本发明创造的流程示意图。
具体实施方式:
下面结合附图1,对本发明创造做进一步阐述:
一种针对国产操作系统的图片内容提取方法,其实施例如下:
步骤1:使用国产liveCD操作系统引导客户机启动,整个操作系统(包括文件系统)均处于内存当中,并自动挂载客户机磁盘;
步骤2:虚拟机自启动脚本引导使用预置Windows镜像启动内容提取子系统虚拟机,该系统启动后会启动Microsoft Office Document Imaging 图片内容提取服务以及透明代理服务端;
步骤3:用户传入待提取的图片文件路径给透明代理客户端,客户端读取文件内容并通过TCP协议发送给Windows虚拟机内的透明代理服务端
步骤4:代理服务端将图片文件传给MODI内容提取服务进行文字识别,提取后得到文本数据再由代理服务端发送给代理客户端,完成整个图片内容提取流程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏博智软件科技股份有限公司,未经江苏博智软件科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811598225.6/2.html,转载请声明来源钻瓜专利网。