[发明专利]适用于大数据分析互联网数据抓取方法在审

专利信息
申请号: 202010212831.0 申请日: 2020-03-24
公开(公告)号: CN111460253A 公开(公告)日: 2020-07-28
发明(设计)人: 相辉;张永力;苏睿清;张弘媛;蔡鹏飞;张静;卢焱;杨青卓;李昊兰 申请(专利权)人: 国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/953
代理公司: 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 代理人: 符继超
地址: 100032 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 适用于 数据 分析 互联网 抓取 方法
【权利要求书】:

1.适用于大数据分析互联网数据抓取方法,其特征在于,包括以下步骤:

S1,数据获取终端产生应用数据,数据获取终端将各种应用软件平台使用后和预览网站后产生的数据传送到对应厂商的服务器和云端数据库内,或者是保存在第三方云端数据库内;

S2,服务器和云端数据库内保存的应用数据会进行甄别分析,数据甄别分析会将数据与通用信息库内储存的信息进行对比,作为第一步程序筛选;

S3,机选后产生三种判断结果,第一种是与通用信息库数据对比后无疑义的信息会直接通过平台和网站反馈给客户,第二种就是存在疑义的信息则进入人工筛选,第三种则是明显不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。

2.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端包括物联网终端、计算机终端和手持终端,物联网终端在使用时产生位置信息、状态信息和设备信息,计算机终端在使用时产生软件平台信息和IP地址信息,而手持终端在使用时则产生软件平台信息、位置信息、状态信息和IP地址信息。

3.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述通用信息库包括假冒诈骗信息库、危害言论信息库和违禁图像信息库,所述通用信息库采用计算机联网,对世面上出现的信息进行及时更新添加。

4.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述程序筛选包括关键字检索和敏感图像检索两大类。

5.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端采用页面解析器、爬行策略搜索技术、主体爬虫技术、链接相关度估算技术、内容相关度计算技术、动态Web页面获取技术、动态页面的分类技术、微博信息内容获取技术和DeepWeb数据获取技术进行数据分析检索。

6.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端具有明确的区分,对数据的来源进行分类,确定目标数据和根源数据,其中目标数据来源个体客户,而根源数据则来源于企业客户,在数据反馈时,将个体客户的数据反馈给企业客户。

7.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述人工筛选时,由专业经过培训的平台官方工作人员对具有疑义的信息进行预览,预览判断无疑义的信息则直接反馈给客户,如果判断不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司,未经国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010212831.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top