[发明专利]基于UI自动化和OCR的数据处理系统、方法、设备和装置在审
申请号: | 201811307223.7 | 申请日: | 2018-11-05 |
公开(公告)号: | CN110032503A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 张炳淑;王京;孙宏全;崔再喜 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F16/951;G06K9/32 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理系统 感兴趣对象 多幅图像 用户界面 调用 自动化 自动化操作 可用资源 数据信息 数据抓取 应用程序 处理器 配置 受限 算法 终端 | ||
本发明涉及基于UI自动化和OCR的数据处理系统、方法、设备和装置,该系统(10)包括:终端(100),其被配置为定期地借助于UI自动化操作一个或多个应用程序分别进入关于感兴趣对象的一个或多个用户界面,并获取与所述一个或多个用户界面对应的一幅或多幅图像;以及,处理器(120,220),其被配置为调用OCR识别算法分别识别并提取所述一幅或多幅图像中与所述感兴趣对象相关的数据信息。利用该系统、方法、设备和装置,能够在数据抓取时不再受限于API的可用资源以及调用频率和次数。
技术领域
本发明涉及互联网技术领域,尤其涉及基于UI(用户接口)自动化和OCR(光学字符识别)的数据处理系统、方法、设备和装置。
背景技术
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫的主要方式是通过网站提供的API(应用程序编程接口)进行数据抓取。通过API的缺点是有些网站会限制API调用的次数和频率,用户需要付费来升级成高级用户来获取更灵活的API调用。
网络爬虫的另一种方式是基于HTML进行数据抓取,其优点就是不受API的调用限制。通过访问网页的HTML代码,并从中抓取到所需节点上的数据。这个方法还有一个缺点就是,网页一旦发生一点小小的结构变化,抓取代码就有可能需要重写。
发明内容
鉴于现有技术的以上问题,本发明的实施例提供一种新颖的基于UI自动化和OCR的数据处理系统、方法、设备和装置,其不再受限于API的可用资源以及调用频率和次数。
对于行情业务来说,多源比对是保证行情数据持续稳定正确可用的有效手段。随着终端技术和软件技术的发展,当前的行情数据多源比对方案,需要分析出其他行情数据APP(应用程序)上数据源的接口规则,通过接口爬取他源数据。但是,接口变更之后,需要对爬取逻辑跟进修改,从而造成维护成本高。另外,随着其他系统的反爬取能力的提升,可分析出接口的数据源也越来越有限。
另一方面,OCR(光学字符识别)是指电子设备通过检测图像上暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。但是,OCR技术通常依赖于用户对于待识别内容的扫描或者待识别图像的指定。因而,OCR技术目前还不能自动对大量图像进行文字识别。
自动化测试是指软件测试的自动化,软件测试就是在预设条件下运行系统或应用程序,评估运行结果,预先条件应包括正常条件和异常条件。自动化测试包括单元自动化测试(数据处理层)、接口自动化测试(业务逻辑层)以及UI自动化测试(GUI界面层)。
本申请的发明人注意到,要爬取的行情数据通常都是行情数据APP上要呈现给用户的用户界面上所显示的数据。进而,本申请的发明人首先提出借助于UI自动化模拟用户操作行情数据APP进入待抓取的用户界面,截屏,调用OCR识别服务,识别截屏中的文本信息,然后提取出需要检查字段的内容,最后可以对抓取的多家行情数据进行比较。尤其是,将截取的图像汇总到云端,借助服务器的强大数据计数能力,能够极大地提高数据抓取的效率。术语“UI自动化”是指通过编写程序,实现对APP上元素的电击、拖动等交互动作,从而实现利用机器模拟用户操作APP的过程。这样,根据本发明的实施例的数据抓取不再受限于API的可用资源以及调用频率和次数。
按照本发明的实施例的一种基于UI自动化和OCR的数据处理系统,包括:其被配置为定期地借助于UI自动化操作一个或多个应用程序分别进入关于感兴趣对象的一个或多个用户界面,并获取与所述一个或多个用户界面对应的一幅或多幅图像;以及,处理器,其被配置为调用OCR识别算法分别识别并提取所述一幅或多幅图像中与所述感兴趣对象相关的数据信息。
按照本发明的实施例的一种基于UI自动化和OCR的数据处理方法,包括:定期地借助于UI自动化操作终端上的一个或多个应用程序分别进入关于感兴趣对象的一个或多个用户界面;获取与所述一个或多个用户界面对应的一幅或多幅图像;并且,调用OCR识别算法分别识别并提取所述一幅或多幅图像中与所述感兴趣对象相关的数据信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811307223.7/2.html,转载请声明来源钻瓜专利网。