[发明专利]训练文字识别系统的方法、装置、存储介质及电子设备有效
申请号: | 201811549735.4 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109685053B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 陈楚俊 | 申请(专利权)人: | 北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 喻嵘;郭迎侠 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 文字 识别 系统 方法 装置 存储 介质 电子设备 | ||
本发明实施例提供一种训练文字识别系统的方法、装置、存储介质及电子设备,方法包括:获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。本发明采用的训练方法可以使用第一字形缓存数据作为已标注训练数据对现有的文字识别系统进行训练,从而大大提高文字识别系统的准确率。
技术领域
本发明属于图像识别技术领域,具体涉及一种训练文字识别系统的方法、装置、存储介质及电子设备。
背景技术
远程桌面协议可以让用户在其他机器上使用服务器的图形界面进行运维,目前常用的远程桌面协议主要是VNC和RDP。堡垒机或者跳板机一般需要对远程桌面协议进行代理,并且事后还需要审计用户的操作。和SSH以及Telnet不同,远程桌面协议只能产生图像数据,所以传统审计图形协议的方式是像播放视频一样回放用户的操作,但这样难以进行统一的检索,审计开销很大。为了方便检索,提升审计效率,人们开始借助OCR(光学文字识别系统)来提取图像数据的中的文字信息,使其可以像字符协议那样进行关键字检索。
传统的光学文字识别系统(OCR)主要用来识别使用光学设备扫描生成的文档,如名片、发票等具有相对高的分辨率和对比度的图像,往往缺少对于低DPI字体的识别能力。最出名的OCR系统Tesseract就面临这个问题,Windows系统屏幕一般是96DPI(在Windows上),而不是Tesseract官方推荐的300DPI,所以直接使用效果并不好。为了提升低分辨率图像的文字识别效果,传统的OCR系统会先把图像的DPI提升到合适的数值,但对于识别质量的提升依旧有限。或者对于支持RDP字形缓存技术的系统,先获取字形缓存中字形的位图,再使用现成的OCR系统进行识别,但在不同字体的识别上依旧存在问题。
对远程桌面协议的历史记录使用OCR系统来提取文字信息,本质上就是对系统屏幕进行文字提取。由于系统屏幕中的文字往往有低分辨率、复杂背景、不同字体大小和颜色、多种对齐方式等特点,进行文字识别的难度很大。同时,由于桌面设置非常灵活,如用户可以自由设定主题、字体、渲染方式等,因此,使用现成的OCR软件及其提供的数据集进行识别的准确率很低,难以适应运维审计的需求。
目前针对低分辨率文字的识别还使用人工神经网络和隐马尔科夫等监督学习方法,但它们都需要大量的已标注训练数据,而这些已标注训练数据的获取需要消耗大量的人力成本。
发明内容
本发明提供了一种训练文字识别系统的方法、装置、存储介质及电子设备。本发明采用的训练方法可以使用第一字形缓存数据作为已标注训练数据对现有的文字识别系统进行训练,从而大大提高文字识别系统的准确率。
为了解决上述技术问题,本发明实施例提供了如下的技术方案:
本发明第一发面提供一种训练文字识别系统的方法,包括:
获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;
使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。
作为优选,所述方法还包括,
获取第二类设备的文字属性信息,其中,所述第二类设备的系统不支持字形缓存技术;
更改第一类设备的文字属性信息,以使其与所述第二类设备的文字属性信息相匹配;
基于更改文字属性信息后的第一类设备,获取第二字形缓存数据;
使用所述第二字形缓存数据对所述文字识别系统进行训练,得到适应于第二类设备的文字识别系统。
作为优选,所述基于更改文字属性信息后的第一类设备,获取第二字形缓存数据,包括,从进行期望提升识别率的操作中来获取所述第二字形缓存数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司,未经北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811549735.4/2.html,转载请声明来源钻瓜专利网。