[发明专利]一种爬虫系统及方法在审
申请号: | 201910807818.7 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110516135A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 黄逸群;郑航星 | 申请(专利权)人: | 杭州时趣信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 张静<国际申请>=<国际公布>=<进入国 |
地址: | 310012 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 爬虫 解析结果 爬虫系统 后台 网页 分类 数据库 实时处理系统 管理后台 申请 解析 存储 网络 管理 | ||
本申请提供了一种爬虫系统及方法,爬虫系统包括:爬虫后台,用于依据预先设定的抓取目标,从网络中抓取网页;爬虫报表实时处理系统,用于对所述爬虫后台抓取的网页进行分类解析,得到分类解析结果,并将所述分类解析结果及所述爬虫后台抓取的网页存入数据库;管理后台,用于对所述数据库中存储的分类解析结果及所述爬虫后台抓取的网页进行管理。在本申请中,通过以上方式可以提高爬虫系统的实用性。
技术领域
本申请涉及信息处理技术领域,特别涉及一种爬虫系统及方法。
背景技术
网络爬虫系统是一种从网络中自动抓取网页的系统。其具体将抓取的网页提供给第三方(如,搜索引擎)使用。
但是,目前,网络爬虫系统的功能仅限于抓取网页,网络爬虫系统的功能单一,实用性不高。
发明内容
为解决上述技术问题,本申请实施例提供一种爬虫系统及方法,以达到提高爬虫系统的实用性的目的,技术方案如下:
一种爬虫系统,包括:
爬虫后台,用于依据预先设定的抓取目标,从网络中抓取网页;
爬虫报表实时处理系统,用于对所述爬虫后台抓取的网页进行分类解析,得到分类解析结果,并将所述分类解析结果及所述爬虫后台抓取的网页存入数据库;
管理后台,用于对所述数据库中存储的分类解析结果及所述爬虫后台抓取的网页进行管理。
优选的,所述爬虫后台,具体用于:
依据网页分析算法过滤出与所述预先设定的抓取目标相关的网址链接URL,将与所述预先设定的抓取目标相关的URL存入待抓取的URL队列中;
依据搜索策略从所述待抓取的URL队列中,选取URL,作为目标URL,依据所述目标URL,从网络中抓取网页;
判断是否达到设定的抓取条件;
若达到,则结束抓取;
若未达到,则执行所述依据网页分析算法过滤出与所述预先设定的抓取目标相关的网址链接URL的步骤,直至达到所述设定的抓取条件。
优选的,所述爬虫系统还包括:
分布式消息中间件,用于将所述爬虫后台抓取的网页传递给所述爬虫报表实时处理系统。
优选的,所述管理后台,包括:
监控报警子系统,用于监控所述数据库中存储的所述爬虫后台抓取的网页的更新是否存在异常;
若存在异常,则进行异常报警,并通知报警接收人。
优选的,所述管理后台,还包括:
爬虫渠道及报告管理子系统,用于周期性检索所述数据库中存储的所述爬虫后台抓取的网页中指定网站中指定栏目内容,得到检索结果,并依据检索结果将栏目内容有变动的网站反馈给管理员。
优选的,所述管理后台,还包括:
政策法规管理子系统,用于按照统一格式,对从所述数据库中存储的所述爬虫后台抓取的网页中选取出的政策法规进行编辑,得到可编辑文本,并将所述可编辑文本上传至所述数据库,并提供政策法规查询界面,用于在所述政策法规查询界面搜索及展示所述可编辑文本。
优选的,所述管理后台,还包括:
风险报告管理子系统,用于录入风险报告,并提供风险报告搜索展示界面,以在所述风险报告搜索展示界面接收风险报告搜索请求,并响应所述风险报告搜索请求,在所述数据库中查询风险报告,并展示,所述风险报告为基于所述政策法规,对业务现状进行风险评估的报告。
优选的,所述管理后台,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州时趣信息技术有限公司,未经杭州时趣信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910807818.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旅游规划系统
- 下一篇:一种基于样本的互联网爬虫内容网页识别方法