[发明专利]一种服务接口子类模板确定方法与系统在审
申请号: | 202010753686.7 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111913693A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 易超;张舒汇;贺赞贤 | 申请(专利权)人: | 北京数立得科技有限公司 |
主分类号: | G06F8/20 | 分类号: | G06F8/20 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务 接口 子类 模板 确定 方法 系统 | ||
本申请提供了一种服务接口子类模板确定方法与系统。通过该方法,首先根据用户选定的模板大类,按照优先级获得模板大类下的各个子类模板;利用各个子类模板对web页面中的待提取数据进行提取操作,获得针对各个子类模板的提取结果;根据提取结果和待提取数据所在的原始DOM块之间的结构相似性,对每个子类模板的适应性进行评估;选择适应性高于指预设阈值的预设数量个子类模板进一步分析,分析内容包括:key‑value饱和度、key值语义含量、key值重复度以及与预期结果的结构相似性;根据分析结果获得待推荐的子类模板。该方法提升子类模板选择的准确率与效率,可针对Web页面的结构推荐出数据提取效果最好的子类模板,进而提升数据提取的准确率与效率。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种服务接口子类模板确定方法与系统。
背景技术
在大数据时代,应用中存在大量有价值的数据,而提取不同应用中的数据并进行集成分析往往能产生更大的价值,应用之间数据开放和互联互通的需求越来越强。其中,Web应用由于其无需安装、访问便捷等原因已成为最主流的应用模式之一。目前已有一些方法对Web应用中的数据进行提取并开放,但随着Web应用的结构越来越复杂且多样化,现有的方法已经很难高效且普适性地适用于众多Web应用。
例如,针对动态Web页面,现有的API(Application Programming Interface,应用程序接口)生成方法无法适用,必须要用户人工辅助来进行数据提取。在相关技术中,可以通过模板提取动态Web页面中的数据,这一过程的首要步骤就是定位动态Web页面中的待提取数据,之后通过模板对待提取数据进行提取转换,而针对某一动态Web页面可以适用的模板有多个,如何选择最佳的模板实现数据的提取转换面临较大的困难。而随着数据开放的需求越来越高,API开发的需求量和及时性要求也在提高,无法处理动态页面这一问题严重拖累了API数据开放的效率。
发明内容
本申请实施例提供了一种服务接口子类模板确定方法与系统,可以解决在提取动态Web页面的数据的场景下,结构相似的Web页面存在多个可用模板时选取适用于当前页面的数据提取的最佳模板较为困难的问题,能有效提高API数据开放的效率。
本申请实施例第一方面提供了一种服务接口子类模板确定方法,包括:
根据用户选定的模板大类,按照优先级获得所述模板大类下的各个子类模板;
利用所述各个子类模板对web页面中的待提取数据进行提取操作,获得针对所述各个子类模板的提取结果;
根据所述提取结果和所述待提取数据所在的原始DOM块之间的相似性,对每个子类模板的适应性进行评估;
选择适应性高于指预设阈值的预设数量个子类模板;
对所述数量个子类模板进一步分析,分析内容包括:key-value饱和度、key值语义含量、key值重复度以及与预期结果的结构相似性;
根据分析结果获得待推荐的子类模板。
本申请实施例第二方面提供了一种服务接口子类模板确定系统,包括:
第一获得模块,用于根据用户选定的模板大类,按照优先级获得所述模板大类下的各个子类模板;
第二获得模块,用于利用所述各个子类模板对web页面中的待提取数据进行提取操作,获得针对所述各个子类模板的提取结果;
评估模块,用于根据所述提取结果和所述待提取数据所在的原始DOM块之间的相似性,对每个子类模板的适应性进行评估;
选择模块,用于选择适应性高于指预设阈值的预设数量个子类模板;
分析模块,用于对所述数量个子类模板进一步分析,分析内容包括:key-value饱和度、key值语义含量、key值重复度以及与预期结果的结构相似性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数立得科技有限公司,未经北京数立得科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010753686.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种接口数据按需存储的方法和系统
- 下一篇:一种粗细等高线生成方法与装置