[发明专利]一种电商数据策略系统在审

专利信息
申请号: 202211259484.2 申请日: 2022-10-14
公开(公告)号: CN115495692A 公开(公告)日: 2022-12-20
发明(设计)人: 孙晓琛;葛强;车礼聚 申请(专利权)人: 山东智豆数字科技有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06F16/955;G06F16/951;G06Q30/06
代理公司: 东营辛丁知联专利代理事务所(普通合伙) 37334 代理人: 罗文远
地址: 266000 山东省青岛*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 商数 策略 系统
【权利要求书】:

1.一种电商数据策略系统,其特征在于,包括如下步骤:

步骤1、首先在淘宝、天猫、生意参谋、京东、抖音电商中选取一部分精心挑选的种子URL,并将挑选好的种子URL依次有序的排列;

步骤2、将这些URL放入待抓取URL队列;

步骤3、从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中,此外,将这些URL放进已抓取URL队列;

步骤4、分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环;

从原理上来说,爬虫去爬数据的过程,共三步:

下载=download

提取=extract

保存=save

具体实现数据爬取步骤:

步骤4.1、获取网页链接

以Python为例,使用Python脚本,挂载selenium专用工具包,编写代码脚本,实现以Chrome浏览器访问电商平台,把获取得到的网页链接存入字典,充当一个临时数据库,在需要用时直接通过函数调用即可获得;使用脚本仿人工操作,对页面上的特定目标元素进行定位、点击、填写内容操作;

对页面上的有效信息,通过读取HTML内容的方法,进行有效数据识别、提取;

步骤4.2、数据存储

爬虫爬取到的网页,将数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML进行有效数据识别、提取,对所有提取的有效数据;引擎在抓取页面时,会做重复内容检测,数据存储可以有很多方式,我们可以存入本地数据库也可以存入临时移动数据库,还可以存入txt文件或csv文件;

步骤4.3、预处理

数据中不需要的数字或者符号进行去除;

并利用软件实现可视化模型数据;

通过脚本进行合并、整理,并可根据需要保存为本地存档;

步骤4.4、数据上传

在完成一批次数据后,可同步将数据按照预先设定的格式,上传到数据库中,作为长期保存的历史数据,用于数据分析;

步骤5、数据库管理

采用阿里云数据库保存所有所爬取的数据,采用账号管理、数据库备份多种安全措施,保证源数据安全;

步骤6、数据ETL整理

对每个项目的数据表,按照业务逻辑进行ETL数据整理,使用SQL语言,通过编写查询、视图、存储事件方式,为可视化数据分析系统优化有效数据,由数据库服务器分担部分数据运算压力;

步骤7、数据加载

在可视化数据分析工具中,读取数据库中对应的数据表,根据业务需求,加载有效数据;

步骤8、搭建数据模型搭建

对已加载的数据表,根据业务逻辑和数据分析需求,对各数据表进行逻辑关联,形成一个逻辑上的大表,通过检索特定字段信息,获取所有关联记录;

步骤9、生成单个数据报表

根据业务需求,选择不同的呈现方式,选择不同的数据信息;

步骤10、数据报表联动

根据业务需求,对于不同数据源,不同数据信息的单个数据报表,通过相同数据字段进行关联联动,在对其中一个数据报表进行数据筛选时,可以将筛选结果同步到数据报表中,使所有具有相同关联字段的报表,同时进行数据筛选,并进行数据呈现;

步骤11、Web发布

对于调试完成后的多页、多报表,通过web发布,可让有权限的工作人员随时随地查看,不同权限的人员看到的报表数量和报表的汇总颗粒度不同。

2.根据权利要求1所述的一种电商数据策略系统,其特征在于:所述根据步骤6中数据分析的业务逻辑、数据模型进行数据重组。

3.根据权利要求1所述的一种电商数据策略系统,其特征在于:所述根据步骤9呈现方式包括但不限于:柱形图、折线图、面积图、表格。

4.根据权利要求1所述的一种电商数据策略系统,其特征在于:所述步骤4.3中数据中存在的乱码、异常且不一致的数值进行去除清洗,并设置有异常数据记录表,工作人员通过设置定时读取工序,对预处理后的数据进行重复读取,并将读取的异常数据存储在异常数据记录表中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东智豆数字科技有限公司,未经山东智豆数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211259484.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top