[发明专利]一种信息处理方法及装置在审
申请号: | 201510385974.0 | 申请日: | 2015-06-30 |
公开(公告)号: | CN105095395A | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 侯建 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息处理方法及装置。
背景技术
目前,当网站达到某一规模时,用户访问流量会快速上涨,此时则往往需要在合法的范围内聚合其他网站的内容,从而与其他网站交换流量,吸引更多用户访问。在聚合其他网站的内容时,需要服务器去该网站页面抓取网站信息,如抓取新闻网站的新闻标题、新闻来源、新闻链接等等,在一个网站可能需要抓取成千上万条,甚至更多的网站信息。
在实际应用中,服务器抓取网站信息是实时进行的,需要不断去抓取需要聚合的其他网站的网站信息,并在抓取信息时即触发对该抓取信息进行数据处理。也就是说,服务器每抓取一条网站信息,则紧接着对该网站信息进行数据处理,在抓取该网站的网站信息时,该信息抓取和数据处理是同时进行的。这就使得抓取网站信息的服务器的负荷较大,尤其是在抓取的信息量较多时,可能会因为服务器压力过大而导致抓取失败。
发明内容
本发明实施例提供了一种信息处理方法及装置,能够通过信息抓取和数据处理的异步进行减轻服务器的负荷。
本发明实施例公开了一种信息处理方法,包括:
检测当前时间是否到达预设时间点;
当到达所述预设时间点时,抓取目标网站的网站信息,其中,所述目标网站的网站信息包括需要从所述目标网站抓取的所有网站信息;
对所述目标网站的网站信息进行数据处理,并输出所述数据处理后的网站信息。
可选的,所述抓取目标网站的网站信息,包括:
解析目标网站的页面结构;
以所述目标网站的页面结构为依据,确定对所述目标网站的信息抓取策略,并通过所述信息抓取策略抓取所述目标网站的网站信息。
可选的,所述信息抓取策略包括文档对象模型DOM节点解析策略和/或基于正则表达式的信息抓取策略。
可选的,所述目标网站的网站信息是通过预设的第一方式抓取得到的;所述对所述目标网站的网站信息进行数据处理,包括:
分别将抓取的所述目标网站的每一条网站信息作为目标网站信息,并对所述目标网站信息进行数据处理;
所述方法还包括:
若对所述目标网站信息的数据处理失败,则通过预设的第二方式重新抓取所述数据处理失败的目标网站信息,并对重新抓取的所述目标网站信息进行数据处理。
可选的,所述目标网站包括与服务器关联的多个网站,且所述多个网站为网站类型相同的网站;或,
所述目标网站存在多个信息源,所述目标网站的网站信息包括所述多个信息源的网站信息。
相应地,本发明实施例还公开了一种信息处理装置,包括:
时间检测模块,用于检测当前时间是否到达预设时间点;
信息抓取模块,用于在所述时间检测模块检测到所述当前时间到达所述预设时间点时,抓取目标网站的网站信息,其中,所述目标网站的网站信息包括需要从所述目标网站抓取的所有网站信息;
数据处理模块,用于对所述信息抓取模块抓取的所述目标网站的网站信息进行数据处理;
信息输出模块,用于输出所述数据处理模块进行所述数据处理后的网站信息。
可选的,所述信息抓取模块包括:
页面解析单元,用于解析目标网站的页面结构;
策略确定单元,用于以所述页面解析单元解析出的所述目标网站的页面结构为依据,确定对所述目标网站的信息抓取策略,并通过所述信息抓取策略抓取所述目标网站的网站信息。
可选的,所述信息抓取策略包括文档对象模型DOM节点解析策略和/或基于正则表达式的信息抓取策略。
可选的,所述目标网站的网站信息是通过预设的第一方式抓取得到的;
所述数据处理模块具体用于:
分别将抓取的所述目标网站的每一条网站信息作为目标网站信息,并对所述目标网站信息进行数据处理;
所述信息抓取模块,还用于在所述数据处理模块对所述目标网站信息的数据处理失败时,通过预设的第二方式重新抓取所述数据处理失败的目标网站信息;
所述数据处理模块,还用于对所述信息抓取模块重新抓取的所述目标网站信息进行数据处理。
可选的,所述目标网站包括与服务器关联的多个网站,且所述多个网站为网站类型相同的网站;或,
所述目标网站存在多个信息源,所述目标网站的网站信息包括所述多个信息源的网站信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510385974.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息提供方法和装置
- 下一篇:一种检索结果的输出方法及装置