[发明专利]一种从Web上自动获取列表数据的方法有效
申请号: | 201510746956.0 | 申请日: | 2015-11-04 |
公开(公告)号: | CN105354302B | 公开(公告)日: | 2019-03-22 |
发明(设计)人: | 郑锐韬;季统凯 | 申请(专利权)人: | 国云科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 广东莞信律师事务所 44332 | 代理人: | 余伦 |
地址: | 523808 广东省东莞市松山湖高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及大数据技术领域,具体涉及一种从Web上自动获取列表数据的方法。本发明方法包括:1.对获取的数据来源进行Web分析,包括Html请求URL、分页参数、Web编码、页面Html结构等进行分析;2.通过配置把要获取的数据相关参数(包括任务名称、Html请求、分页参数、Web编码、页面Html结构等)用于获取数据列表并保存到数据库表上;3.通过系统在后台自动判断数据列表是否有更新并自动启动数据列表获取任务并把数据列表保存到指定的数据库上,用于相关的数据分析。本发明解决了要进行特定的大数据分析时没有数据或数据量不足、或数据只存在Web上无法对数据直接使用的问题,本发明可广泛应用于大数据分析的数据获取应用方面。 | ||
搜索关键词: | 一种 web 自动 获取 列表 数据 方法 | ||
【主权项】:
1.一种从Web上自动获取列表数据的方法,其特征在于:所述的方法包括以下步骤:步骤一,分析获取数据列表的Web页面HTML结构;步骤二,配置任务名称、Web页面数据列表抓取相关配置并保存;步骤三,判断是否有新数据;是则进入下一步骤;步骤四,进行Web页面数据抓取相关配置;步骤五,通过Web页面的URL后台获取数据抓取页面的整体HTML;步骤六,获取抓取数据的区域块、进行分行、分列、数据截取;步骤七,判断数据是否已存在,是则结束,否则进入下一步骤;步骤八,把数据保存到指定的数据库表上;步骤九,判断是否有下一页需要抓取;有则返回到步骤四;否则结束;由系统在后台通过判断是否有更新的数据,启动任务运行实现数据的自动抓取,是通过以下规则进行判断的:(1)如果系统上不存在数据,则需启动任务进行数据获取,并保存系统的最后获取标识;(2)系统上存在获取的一部分数据,首先判断任务的数据列表是正序显示还是倒序显示;如果数据列表是正序显示,跳转到最后获取数据的页数上并通过MD5所有字段的数据,与系统上已经存在的最后获取数据判断是否存在于系统上,如果不存在需启动任务进行获取;如果数据列表是倒序显示则通过获取第一条数据的所有字段的MD5结果,判断数据列表的第一条数据是否已经存在于系统上,如果不存在需启动任务进行获取;(3)后台判断是否需要更新的周期,可通过系统的自学习进行,一开始是通过半个小时进行判断是否需要数据更新,在后续不断记录需更新数据的时间,从而学习判断各数据抓取任务的抓取时间,从而在平均的时间间隔内启动是否需要判断的时间进行判断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510746956.0/,转载请声明来源钻瓜专利网。
- 上一篇:相变存储阵列的位线结构
- 下一篇:一种基于Web技术的信息化考勤方法