[发明专利]一种基于url字符串的数据采集方法在审
申请号: | 201710440457.8 | 申请日: | 2017-06-12 |
公开(公告)号: | CN107330004A | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 马建军 | 申请(专利权)人: | 上海连源信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海唯源专利代理有限公司31229 | 代理人: | 曾耀先 |
地址: | 200000 上海市杨浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 url 字符串 数据 采集 方法 | ||
1.一种基于url字符串的数据采集方法,通过采集系统在互联网上采集符合用户需求的数据,其特征在于,包括:
a.所述采集系统基于用户的输入生成至少一个url链接以及至少一个url链接配置内容;
b.所述采集系统基于用户的输入生成至少一个核心字段以及至少一个核心字段配置内容;
c.所述采集系统基于所述url链接、所述url链接配置、所述核心字段以及所述核心字段配置内容生成采集规则并基于所述采集规则采集数据。
2.根据权利要求1所述的数据采集方法,其特征在于,所述步骤a中通过如下步骤生成多个所述url链接:
a1.用户输入一个原始url字符串;
a2.使用通配符替换原始url字符串中的变量生成格式url字符串,所述通配符与所述变量相对应;
a3.基于所述格式url字符串生成多个所述url链接。
3.根据权利要求1所述的数据采集方法,其特征在于,所述步骤a中的所述url链接配置内容通过如下方式生成:
a4.基于所述用户的输入检索所述url链接对应的源代码获取至少一个通用字符串;
a5.基于所述通用字符串生成所述url链接配置内容。
4.根据权利要求1所述的数据采集方法,其特征在于,所述步骤a中的所述url链接配置内容通过如下方式生成:
a6.基于用户输入的特定字符串生成所述url链接配置内容。
5.根据权利要求1所述的数据采集方法,其特征在于,所述步骤a中的所述url链接配置内容通过如下方式生成:
a7.基于用户自定义脚本生成所述url链接配置内容。
6.根据权利要求3或4或5所述的数据采集方法,其特征在于,所述url链接配置内容为如下的任一种或者任多种:
-所述url链接配置内容为确定搜索列表的两个字符串,所述搜索列表归属于所述url链接对应的源代码的一部分;
-所述url链接配置内容为确定识别变量的一个字符串,所述识别变量用于确定同种类的所述url链接;
-所述url链接配置内容为确定必要变量的一个字符串,所述必要变量用于确定包含所述必要变量的所述url链接;
-所述url链接配置内容为确定剔除变量的一个字符串,所述剔除变量用于确定不包含所述剔除变量的所述url链接;
-所述url链接配置内容为确定过滤变量的一个字符串,所述过滤变量用于确定所述url链接需要删除的部分;
-所述url链接配置内容为确定补充前缀的一个字符串,所述补充前缀用于嵌入到所述url链接的最前端;
-所述url链接配置内容为确定补充后缀的一个字符串,所述补充后缀用于嵌入到所述url链接的最后。
7.根据权利要求1所述的数据采集方法,其特征在于,所述步骤b中的所述核心字段通过如下方式生成:
b1.基于用户的输入检索所述url链接对应的源代码获取一个核心字符串,所述核心字符串在所述url链接对应的源代码中具有唯一性;
b2.使用通配符替换所述核心字符串中的变量生成所述核心字段,所述通配符与所述变量相对应。
8.根据权利要求1所述的数据采集方法,其特征在于,所述步骤b中的所述核心字段配置内容通过如下方式生成:
b3.基于所述用户的输入检索所述url链接对应的源代码获取至少一个通用字符串;
b4.基于所述通用字符串生成所述核心字段配置内容。
9.根据权利要求1所述的数据采集方法,其特征在于,所述步骤b中的所述核心字段配置内容通过如下方式生成:
b5.基于用户输入的特定字符串生成所述核心字段配置内容。
10.根据权利要求1所述的数据采集方法,其特征在于,所述步骤b中的所述核心字段配置内容通过如下方式生成:
b6.基于用户自定义脚本生成所述核心字段配置内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海连源信息科技有限公司,未经上海连源信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710440457.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置