[发明专利]采集规则共享系统无效
申请号: | 200810167516.X | 申请日: | 2008-10-09 |
公开(公告)号: | CN101719893A | 公开(公告)日: | 2010-06-02 |
发明(设计)人: | 赖永聪;李晶心 | 申请(专利权)人: | 赖永聪;李晶心 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08;H04L12/56 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 471000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采集 规则 共享 系统 | ||
所属领域
本发明属于采集规则共享系统技术领域,,具体是地说为一种基于CS网络架构的网站采集系统。
背景技术
规则的编写对大多数用户来说是一件麻烦的工作,现有的流行的采集引擎基本为单机版,需要用户自己编写规则,用户编写规则劳动量大,步骤繁琐,单机版编写规则过程是一个封闭的不能相互学习的过程,用户之间很难利用对方编写的规则,交互采集心得,因此对用户的使用造成了一定的限制.
发明内容
本发明的目的即由此产生,提出一种采集规则共享系统。使得规则可以在多用户之间进行共享,以获得更佳的采集效果。从而将准确性高的规则推荐给用户,大大便利了用户的规则编写过程,实现多个服务转发端的负载均衡和资源共享。
本发明实现上述目的采取的技术方案是:针对采集规则设计了一种资源分布式共享架构模式,提出多转发服务器协同工作方法,即可使用专门的协调服务器对用户的请求进行重定向取代服务器之间的协商;通过和客户端的请求应答方式,实现了转发服务器的用户验证,多用户数登录以及规则上下载等功能;通过各转发服务器的负荷问答模式实现了转发服务器的负荷均载。
本发明提出了一个将采集规则共享的思想并赋予实施,旨在把网站的采集规则通过客户端或网站途经以一定格式编辑提交的采集规则作为一个规则种子的集结地。本发明针对采集规则建立的共享式CS网络系统使每个用户都能够在享受大量规则信息量的同时,提交自己编写的规则。服务器端的使用率排位,将准确性高的规则推荐给用户,大大便利了用户的规则编写过程。其以C/S的结构形式进行组织,提出把规则保存于服务端的规则共享方案,使得规则可以在多用户之间进行共享,以获得更佳的采集效果。并在此基础上提出了服务器端多个系统合作协调的方案,实现多个服务转发端的负载均衡和资源共享。
附图说明
图1为本发明系统架构示意图。
图2为本发明规则服务器功能模块示意图。
图3为本发明客户端与转发服务器之间的通讯模式示意图。
图4为本发明分布式资源共享模式示意图。
图5为本发明集中式资源共享模式示意图。
具体实施方式
结合附图,给出本发明的实施例如下,但本发明不局限该实施例。
该系统采用C/S结构的模式,分为规则库服务端和采集客户端,他们之间的关系如图1所示。
规则库服务端
包含两部分:规则数据库、转发服务器。规则数据库中保存着用户编写或由他人编写而用户使用着的规则,而用户使用规则的时候需通过转发服务器获得。转发服务器给用户提供规则查询、下载和用户登录验证等功能,其中规则下载只是把规则下载到客户的内存中。
采集客户端
采集客户端根据规则完成网页信息的提取、分析、存储等功能。采集客户端需要从转发服务器中获得规则。用户编写的采集规则也通过采集客户端发送到转发服务器上并存在用户规则库中。
规则共享
规则共享是指不同的用户所编辑的规则可以互相使用,具体的形式是,规则共享者提供自己编写的规则,其他用户可以把他人编写的规则添加到自己的数据库中。
系统规则库与用户规则库
规则库是规则共享得基础。系统规则库包含所有的规则信息,用户规则库是系统规则库的一个子集,因此内容相同的规则可能被包含在不同的用户规则库中而成为不同的规则。如采集新浪新闻频道的规则可能会在多个用户的规则库中,这些规则都有很多相似的地方,但不完全相等,用户把他人的规则添加到自己的规则库中后可能会作相应的调整以适应该用户自身的要求。
规则共享的模式
规则共享具有两种共享模式:在线共享、离线共享。
在线共享:用户通过转发服务器获得规则数据库中规则信息,并把需要的规则添加到自己的规则库中。
离线共享:该方式使用与用户之间私下的规则交流,通过采集客户端,用户可把自己使用的规则导出到规则文件中,该规则文件并没有包含规则的全部信息,只包含规则的标识和规则的描述信息。该规则文件可以在用户之间自由传递,并可以通过采集客户端导入到用户自身的规则库中去。
通过文件导入规则
采集客户端首先读入规则文件,读取该文件中规则的标识,然后向服务器发送规则下载请求,由转发服务器把该规则添加到用户自身的规则库中。
1.规则库服务端设计
规则服务器端包含三大功能模块,用户登录验证模块、规则查询模块、规则下载模块,如图2所示。
在客户端运行的过程中,需要时刻保持与转发服务器的通讯,通讯流程如图3所示。
1)用户登录及其处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赖永聪;李晶心,未经赖永聪;李晶心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810167516.X/2.html,转载请声明来源钻瓜专利网。