[发明专利]适用于大数据分析互联网数据抓取方法在审
申请号: | 202010212831.0 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111460253A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 相辉;张永力;苏睿清;张弘媛;蔡鹏飞;张静;卢焱;杨青卓;李昊兰 | 申请(专利权)人: | 国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 数据 分析 互联网 抓取 方法 | ||
1.适用于大数据分析互联网数据抓取方法,其特征在于,包括以下步骤:
S1,数据获取终端产生应用数据,数据获取终端将各种应用软件平台使用后和预览网站后产生的数据传送到对应厂商的服务器和云端数据库内,或者是保存在第三方云端数据库内;
S2,服务器和云端数据库内保存的应用数据会进行甄别分析,数据甄别分析会将数据与通用信息库内储存的信息进行对比,作为第一步程序筛选;
S3,机选后产生三种判断结果,第一种是与通用信息库数据对比后无疑义的信息会直接通过平台和网站反馈给客户,第二种就是存在疑义的信息则进入人工筛选,第三种则是明显不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
2.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端包括物联网终端、计算机终端和手持终端,物联网终端在使用时产生位置信息、状态信息和设备信息,计算机终端在使用时产生软件平台信息和IP地址信息,而手持终端在使用时则产生软件平台信息、位置信息、状态信息和IP地址信息。
3.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述通用信息库包括假冒诈骗信息库、危害言论信息库和违禁图像信息库,所述通用信息库采用计算机联网,对世面上出现的信息进行及时更新添加。
4.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述程序筛选包括关键字检索和敏感图像检索两大类。
5.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端采用页面解析器、爬行策略搜索技术、主体爬虫技术、链接相关度估算技术、内容相关度计算技术、动态Web页面获取技术、动态页面的分类技术、微博信息内容获取技术和DeepWeb数据获取技术进行数据分析检索。
6.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端具有明确的区分,对数据的来源进行分类,确定目标数据和根源数据,其中目标数据来源个体客户,而根源数据则来源于企业客户,在数据反馈时,将个体客户的数据反馈给企业客户。
7.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述人工筛选时,由专业经过培训的平台官方工作人员对具有疑义的信息进行预览,预览判断无疑义的信息则直接反馈给客户,如果判断不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司,未经国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010212831.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置