[发明专利]一种网络信息感知方法在审
申请号: | 201811126845.X | 申请日: | 2018-09-26 |
公开(公告)号: | CN109299411A | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 胡瑞 | 申请(专利权)人: | 湖北函数科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958;G06F16/901 |
代理公司: | 武汉红观专利代理事务所(普通合伙) 42247 | 代理人: | 陈凯 |
地址: | 430074 湖北省武汉市东湖新*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 感知 分析比对 网络信息 网页信息 信息更新 比对 获知 扫描 网页 网页信息内容 多次扫描 人工操作 数据更新 网页内容 一次编码 传统的 网站 网址 解析 | ||
本发明提出了一种网络信息感知方法,通过对网页进行编码,对网页进行多次扫描,每次扫描都进行一次编码,将扫描后的编码与第一次编码进行比对,若两次编码不一样,代表网页信息有变化,以此来判断网页信息是否发生变化,可以代替人工查看或者对网页信息内容进行分析比对来获知是否有信息更新的方法,本发明的技术相对于传统的感知技术,更简单,可以减少人工操作;整个技术可以对网站进行编号,通过对编码的解析比对,获取网址的数据更新情况,无需人工查看或者对网页内容进行分析比对而获知是否有信息更新。
技术领域
本发明涉及网页感知领域,尤其涉及一种网络信息感知方法。
背景技术
随着科技的进步,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,面对互联网上兼具多样性和复杂性的海量信息,仅仅靠人工收集、整理、跟踪最新信息动态,显然是不科学的、低效的,也不能满足实际需要。而互联网信息自动采集可以使用户在信息采集、资源整合、资金利用、人力投入等方面节约大量资源,广泛应用于行业门户网站信息采集、竞争对手情报数据搜集、网站内容系统建设、垂直搜索、舆情监测、科研等领域。
常规网页抓取步骤包括:
1、从网站入口开始加载页面所有链接URL;
2、加载此网站定制的脚本;
3、翻转出所有符合该站点翻转规则的帖子URL;
4、加入采集队列,采集输出结构化数据;
5、分析,处理,存储。
现有的互联网信息因为格式多样化,数据量爆炸式膨胀,监控严格,动态加载,爬虫策略限制等,导致收集难度加大。因此现需一种可以自动感知互联网的站群集更新动态的网络信息感知方法。
发明内容
有鉴于此,本发明提出了一种可以自动感知互联网的站群集更新动态的网络信息感知方法。
本发明的技术方案是这样实现的:本发明提供了一种网络信息感知方法,其包括以下步骤:
S101、在数据库中的任务设置表中创建用来存储任务的各项参数,包括任务的标识int自增类型taskid、pa监测频率、pb截止时间,以时间戳的方式存储格林威治时间1970年01月01日00时00分00秒起至现在的总秒数;
S102、在数据库中的监测队列存储表中配置待测网页地址url以及各网页地址url所属的任务标识,并存储用来检测网页地址url的队列ID以及队列监测的结果和记录;
S103、系统读取存放在任务设置表的数组$task中与任务设置表相关的配置记录,并且向服务器发送用于设置周期性被执行的指令crontab命令,将网页地址url的值传送到do.php文件中;
S104、循环执行do.php文件,找到待测网页地址url的源码,对待测网页地址url的主体内容进行编码,周期扫描待测网页地址url的主体内容,每扫描一次,对待测网页地址url的主体内容进行哈希编码,将最近一次的哈希编码与第一次主体内容的编码进行比对,比对结果一致,则代表网页没有更新,比对结果不一致,则代表网页更新。
在以上技术方案的基础上,优选的,do.php文件是嵌入do循环后的一个动态网页文件,循环执行do.php文件,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北函数科技有限公司,未经湖北函数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811126845.X/2.html,转载请声明来源钻瓜专利网。