[发明专利]一个将网站选定内容提取、存储并发布的系统在审

申请号：	201410061863.X	申请日：	2014-02-24
公开（公告）号：	CN104866489A	公开（公告）日：	2015-08-26
发明（设计）人：	赵冰	申请（专利权）人：	赵冰
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/44
代理公司：	暂无信息	代理人：	暂无信息
地址：	518001 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	一个将网站选定内容提取、存储并发布的系统，该系统包括多个程序段。该系统的特征在于，在步骤1中，将本人的发明专利申请(一种提取html页面内容的方法申请号201310204988.9)中涉及到的相关数据存入数据库表中；步骤2中，将网站页面根据导航层次以及html源码格式的不同划归于不同节点并用这些节点和其页面所对应的分析模板组成站点分析树；步骤3中，遍历分析树，对每个节点中的每个页面都利用所对应模板进行数据提取，并记入数据库表，具体处理步骤使用了多线程和任务队列实现；步骤4中，利用WEB应用容器发布在步骤3中所提取的页面信息，步骤5中，利用分布式的处理架构来提高步骤3中所提及的解析提取速度。
搜索关键词：	一个网站选定内容提取存储发布系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一个将网站选定内容提取、存储并发布的系统，改系统包括多个程序和数据库表。该系统的特征在于，在步骤1中，将本人的发明专利申请(一种提取html页面内容的方法申请号201310204988.9)中涉及到的相关数据存入数据库表中；在步骤2中，分析所提取网站的页面导航结构，将页面根据导航层次以及html源码格式的不同划归于不同节点，并用这些节点和其页面所对应的分析模板组成站点分析树；在步骤3中，遍历步骤2中的分析树，对每个节点中的每个页面都利用所对应模板都利用“一种提取html页面内容的方法”进行数据提取，并记入步骤1中的数据库表结构，具体处理步骤使用了多线程和任务队列实现；在步骤4中，按照组装模板将数据库中保存的网站信息按照自定义的html格式组装起来，再按照与原网站相同的层次结构通过WEB应用容器发布，在步骤5中，利用分布式的处理架构来提高步骤3中所提及的解析提取速度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于赵冰，未经赵冰许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410061863.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一个将网站选定内容提取、存储并发布的系统在审

专利文献下载