[发明专利]一种服务接口原语定义方法和系统有效
申请号: | 202010753677.8 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111913739B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 易超;张舒汇;贺赞贤 | 申请(专利权)人: | 北京数立得科技有限公司 |
主分类号: | G06F8/74 | 分类号: | G06F8/74 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务 接口 定义 方法 系统 | ||
本申请提供了一种服务接口原语定义方法和系统。通过该方法,首先根据待提取数据的Web页面的特征,按照模板原语编写数据提取模板。接着对数据提取模板进行词法分析,获得词法单元。再根据词法单元,对数据提取模板进行语法分析,获得抽象语法树;然后根据抽象语法树,生成数据提取模板的以中间形式表示的XML文件;最后根据模板原语对XML文件进行语义检查,完成数据提取模板的定义。通过该方法,可以解决在提取动态Web页面的数据时Web页面相互之间差异较大而导致的数据提取转换困难的问题,有效降低了模板编写的难度,提升了模板的适用性,为动态Web页面的数据的提取开放提供了技术支持,提升了动态Web页面的数据的提取开放的效率。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种服务接口原语定义方法和系统。
背景技术
在大数据时代,应用中存在大量有价值的数据,而提取不同应用中的数据并进行集成分析往往能产生更大的价值,应用之间数据开放和互联互通的需求越来越强。其中,Web应用由于其无需安装、访问便捷等原因已成为最主流的应用模式之一。目前已有一些方法对Web应用中的数据进行提取并开放,但随着Web应用的结构越来越复杂且多样化,现有的方法已经很难高效且普适性地适用于众多Web应用。
例如,针对动态Web页面,现有的API(Application Programming Interface,应用程序接口)生成方法无法适用,必须要用户人工辅助来进行数据提取。在相关技术中,可以通过模板提取动态Web页面中的数据,而不同的动态Web页面结构差异较大,如果为每一动态Web页面编写适用模板,工作量较大,且编写的模板仅限于当前适用的Web页面,通用性较差。而随着数据开放的需求越来越高,API开发的需求量和及时性要求也在提高,无法处理动态页面这一问题严重拖累了API数据开放的效率。
发明内容
本申请实施例提供了一种服务接口原语定义方法和系统,可以解决在提取动态Web页面的数据时Web页面相互之间差异较大而导致的数据提取转换困难的问题,进而提高API数据开放的效率。
本申请实施例第一方面提供了一种服务接口原语定义方法,包括:
根据待提取数据的Web页面的特征,按照模板原语编写数据提取模板;
对所述数据提取模板进行词法分析,获得词法单元;
根据所述词法单元,对所述数据提取模板进行语法分析,获得抽象语法树;
根据所述抽象语法树,生成所述数据提取模板的以中间形式表示的XML文件;
根据所述模板原语对所述XML文件进行语义检查,完成所述数据提取模板的定义。
本申请实施例第二方面提供了一种服务接口原语定义系统,包括:
编写模块,用于根据待提取数据的Web页面的特征,按照模板原语编写数据提取模板;
第一获得模块,用于对所述数据提取模板进行词法分析,获得词法单元;
第二获得模块,用于根据所述词法单元,对所述数据提取模板进行语法分析,获得抽象语法树;
生成模块,用于根据所述抽象语法树,生成所述数据提取模板的以中间形式表示的XML文件;
检查模块,用于根据所述模板原语对所述XML文件进行语义检查,完成所述数据提取模板的定义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数立得科技有限公司,未经北京数立得科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010753677.8/2.html,转载请声明来源钻瓜专利网。