[发明专利]一种基于网络爬虫与结构化存储的数据处理方法有效

申请号：	201610361299.2	申请日：	2016-05-26
公开（公告）号：	CN106055618B	公开（公告）日：	2020-02-07
发明（设计）人：	郑文毅;谢晓勇;黄俊	申请（专利权）人：	优品财富管理有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	11541 北京卓唐知识产权代理有限公司	代理人：	龚洁
地址：	430000 湖北省武汉市东湖高新***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于网络爬虫与结构化存储的数据处理方法，属于计算机应用技术领域。本发明包括如下步骤：步骤一：确定数据源并配置网络爬虫系统；步骤二：根据数据源特征以及预设的元数据结构，对数据处理界面进行配置；步骤三：针对网页爬虫获取的数据与文件进行筛选排重；步骤四：依据索引把数据与文件的调取到不同的数据维护界面。本发明不需要大量人员去跟踪各个数据来源，也减少了数据来源比对，排重的工作量，有效的提高了获取数据的效率。在数据存储过程中，采用了结构化的处理方式，对数据进行了标准化，数据进入数据库前会经过正确的逻辑校验，保证了数据的准确性和完整性。网络爬虫模块。
搜索关键词：	一种基于网络爬虫结构存储数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于网络爬虫与结构化存储的数据处理方法，其特征在于：包括如下步骤：/n步骤1：确定数据源并配置网络爬虫系统；/n步骤2：根据数据源特征以及预设的元数据结构，对数据处理界面进行配置，数据处理界面进行配置包括结构配置，字段配置，基于数据库的校验规则配置，其中，数据在入库前会经过各个业务不同的规则的校验，校验方式为数据库查询的逻辑语句；/n步骤3：针对网页爬虫获取的数据与文件进行筛选排重，对网站上页面的资讯根据URL地址进行筛选排重，非重复的数据进入数据库，由系统平台进行复制，复制过程中比较48小时内相似新闻取标题、段前的正文、段尾的正文进行比较或正文分词比较大于或等于80％的资讯进行记录并且修改采集状态显示在系统平台中供采集；/n步骤4：依据索引把数据与文件的调取到不同的数据维护界面；/n步骤5：对已经结构化的数据处理，其中，包括：对已经结构化的数据进行直接入库或者按规则处理后自动入库处理，所涉及到的规则除了数据库本身字段限制以外，还根据具体数据所涉及到的业务逻辑进行处理；/n步骤6：对非结构化的数据以及文件类的数据处理；/n步骤7：符合规则的数据进入数据库，不符合规则的数据在前台进行提示并返回人工进行处理，直到满足规则才允许进入数据库存储。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于优品财富管理有限公司，未经优品财富管理有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610361299.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于网络爬虫与结构化存储的数据处理方法有效

专利文献下载