[发明专利]一种网站更新内容的监测方法及系统在审
申请号: | 201510888495.0 | 申请日: | 2015-12-07 |
公开(公告)号: | CN105528416A | 公开(公告)日: | 2016-04-27 |
发明(设计)人: | 郭克华;周孝锞 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 长沙朕扬知识产权代理事务所(普通合伙) 43213 | 代理人: | 胡慧 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 更新 内容 监测 方法 系统 | ||
技术领域
本发明涉及互联网数据处理领域,尤其涉及一种网站更新内容的监测方法及系统。
背景技术
随着互联网的迅猛发展,当今社会进入全面信息时代,各类网站如雨后春笋,截止2011 年底,中国网民规模达到4.85亿,位居世界首位,网页数量达到600亿以上,并且这些网页 都处在不断的变化更新中,近乎40%的网页一周内会更新。监测网站的更新,从浩瀚信息海 洋中获取最需、最新内容,早已成为信息时代大众的迫切需求。
RSS(ReallySimpleSyndication,简易信息聚合)阅读器应该算是网站更新监测领域最为成 功的产品,它的发明出现,给人们带来了巨大的便利,加快了人们获取信息的速度,节省了 大量的时间和精力。RSS阅读器是一种软件或者程序,用户可以添加各类网站、博客(这些 网站或博客可以称之为频道),接受来自RSS种子(信息源)的最新内容。RSS种子实际上 是网站或博客开发人员提供的包含许多Item(条目)的XML(ExtensibleMarkupLanguage, 可扩展标记语言)文件,Item是一条新闻或一篇博文,由标题、时间、作者、摘要、最后更 新时间等组成。每当频道有新的内容时,RSS种子文件就会有新的Item,同时推送给添加了 该RSS种子的阅读器,用户即可在自己的阅读器上接受到来自各个频道的最新资讯。用户从 以前主动地浏览大量网站,变为被动地接收来自大量感兴趣的网站的最新资讯。另外也有利 用MD5算法(MessageDigestAlgorithm5,消息摘要算法第五版)来判断前后两次网页内容 是否变化,进而对网站实行更新监测的方法。还有搜狗浏览器的“消息盒子”,用户添加消息 盒子支持的微博、邮箱、博客、新闻网等之后,当它们有更新时,会弹出提醒,点击提醒可 以查看具体的更新内容。
RSS订阅由于订阅源的限制而严重影响了订阅的频道范围,对于没有提供RSS种子的频 道,RSS阅读器显得无能为力。并且由于版权、信息保护、维护成本等原因,许多网站不提 供RSS种子,RSS阅读器无法订阅。搜狗的“消息盒子”也是如此,只支持部分网站。利用 MD5算法来监测网页更新虽然有效,但很不实用,因为它只能判断网站某段时间间隔内是否 有变化,无法获取变化的内容;并且网页内容的任意微小变化都会引起MD5值的不同,像数 字、标点符号和页面标签等非主体内容的变化也会被当做页面更新,导致准确度大大下降。
发明内容
本发明目的在于提供一种网站更新内容的监测方法及系统,以解决现有的网站更新监测 方法及系统监测的网站有限和准确度低的技术问题。
为实现上述目的,本发明提供了一种网站更新内容的监测方法,包括以下步骤:
S2:根据待测网站的更新频率预算并存储待测网站的更新时间间隔;
S4:在每间隔更新时间间隔的时间点,获取待测网站的网页内容;
S6:在获取的网页内容中提取条目的文本值;
S8:将当次获取的网页内容中提取的条目的文本值与上一次获取的网页内容中提取的条 目的文本值进行对比;
S10:通过对比,计算得到文本值有变化的条目。
作为本发明的方法的进一步改进:
优选地,在步骤S6完成之后,方法还包括:
S7:将当次获取的网页内容条目存储在数据库中。
在除首次之外的每次执行步骤S8时,将当次获取的网页内容中提取的条目的文本值与数 据库中存储的上一次获取的网页内容中提取的条目的文本值进行对比。
优选地,在步骤S10完成后,方法还包括:
S12:计算得到文本值有变化的条目后,将文本值有变化的条目存储,并根据条目的发布 或者修改时间将文本值有变化的条目排序后返回给用户。
优选地,步骤S6中在获取的网页内容中提取条目的文本值,包括以下步骤:
S601:提取获取的网页内容,去除网页内容中的网页标签和链接,保留网页内容中的所 有超链接的文本值。
优选地,步骤S8在当次获取的网页内容中提取的条目的文本值与上一次计算得到的网页 内容中提取的条目的文本值进行对比,包括以下步骤:
S801:将当次获取的网页内容中提取的条目的文本值与上一次获取的网页内容中提取的 条目的文本值进行对比,采用字符串对比的方式,找出当次的字符串和上一次的字符串中所 有的最长公共子序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510888495.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种资源处理方法和装置
- 下一篇:一种公交车到站提醒方法和系统
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法