[发明专利]招投标相关网页爬取任务调度方法及系统有效
申请号: | 201811481861.0 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109670097B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 杨敏 | 申请(专利权)人: | 贵阳高新数通信息有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9532;G06F16/9535;G06Q40/06 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 赵玉乾 |
地址: | 550000 贵州省贵阳市高新*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 投标 相关 网页 任务 调度 方法 系统 | ||
本发明涉及网络信息获取领域,具体涉及一种招投标相关网页爬取任务调度方法及系统,该系统包括:用户终端、总服务器和多台子服务器;所述用户终端用于用户关注、购买和查看对应企业网站上爬取的信息;所述总服务器用于获取企业网站日均访问人数、日访问时间记录信息、企业信息更新时间信息以及用户查看信息规律表,然后根据获取的所有信息生成分配模型,并根据生成的分配模型分配子服务器进行信息爬取。本方案适用于分别针对不同用户进行其关注信息的爬取。
技术领域
本发明涉及网络信息获取领域,具体涉及一种招投标相关网页爬取任务调度方法及系统。
背景技术
网络爬虫(又称网页蜘蛛)为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。
但是,不管是传统爬虫还是聚焦爬虫,当需要访问的站点或网页数量较多时,单个机器或单个数据中心中蜘蛛的获取信息的能力将非常有限。这个时候就会需要使用到多个机器或多个数据中心的蜘蛛,来对大量的站点及网页进行爬取。现有使用多个机器或多个数据中心的蜘蛛时,蜘蛛任务的分配大多是将各个站点或各个需要抓取的页面任务,平均地进行分配,很多时候在信息还没有公布的时候便进行爬取,直至爬取到相关信息后才停止爬取,导致很多机器或数据中心蜘蛛做了很多无用功。且若访问的网站数据访问人数多,再加上不断的信息爬取,容易出现系统崩溃无法访问的现象,导致爬取失败等问题,且对于爬取的不同信息,用户需求迫切性并不一致,其查看时间也并不一致,若不对其进行区分并分别安排进行信息爬取,可能导致用户需求度并不高的信息先被爬取,而用户迫切度高的信息反而爬取不及时,给用户带来不好的体验。
发明内容
本发明目的在于提供一种招投标相关网页爬取任务调度方法,以解决现有网络爬虫爬取信息没有根据用户需求迫切性进行区分爬取导致重要信息爬取不及时的问题。
本发明提供的基础方案为:招投标相关网页爬取任务调度方法,包括如下步骤:
S1:用户注册登录并输入用户输入信息集,信息集包括关注企业名称和内容;
S2:根据用户输入的企业名称寻找对应企业网站日均访问人数、日访问时间记录信息以及企业信息更新时间信息;
S3:记录用户每天登录系统和查看信息的时间,生成用户查看信息规律表,用户查看信息规律表包括:每日登录时间规律、查看内容、查看每一个企业内容对应时间以及查看企业内容的先后排序;
S4:根据用户查看信息规律表、企业网站日均访问人数、日访问时间记录信息和企业信息更新时间信息生成分配模型,然后根据分配模型分配不同的子服务器进行信息爬取;其中,根据用户查看信息规律对每日登陆时间早的用户关注的企业名称和内容对应的企业网站信息优先进行爬取,同时还按照用户查看企业内容的先后排序对对应企业信息进行爬取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵阳高新数通信息有限公司,未经贵阳高新数通信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811481861.0/2.html,转载请声明来源钻瓜专利网。