[发明专利]面向行业领域的同源样本数据分类存储的预处理方法及系统有效
申请号: | 201710660357.6 | 申请日: | 2017-08-04 |
公开(公告)号: | CN107612707B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 魏晓林 | 申请(专利权)人: | 深圳市其乐游戏科技有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G06F16/951;G06F16/953;G06F16/9532;G06F16/955 |
代理公司: | 深圳市恒程创新知识产权代理有限公司 44542 | 代理人: | 赵爱蓉 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 行业 领域 同源 样本 数据 分类 存储 预处理 方法 系统 | ||
1.面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,包括如下步骤:
步骤S1,创建包含各行业领域平台字段的关键字集;
步骤S2,获得用户网络内所有成员的网络行为日志数据,对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;
步骤S3,根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进行分类储存,实现面向行业领域的同源样本数据分类存储的预处理;
所述步骤S2包括,
步骤S21,由同一个路由器物理地址上报的数据经过解析处理获得到的网络行为日志集;
步骤S22,根据连接在路由器上的设备物理地址将所述网络行为日志集进行划分,储存为设备数据集;
步骤S23,对所述设备数据集中每一条统一资源定位符数据进行分块处理,并从设备数据集数据中筛选出特征词;所述特征词进行的行业领域匹配在所述关键字集中进行匹配,得出所述设备数据集中每一条统一资源定位符数据的行业领域属性。
2.根据权利要求1所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,在所述筛选步骤S23之后,当对所述网络行为日志数据进行行业领域匹配时,匹配出的变量为假时,对所述特征词所在的所述设备数据集数据进行清洗。
3.根据权利要求1所述的面向行业领域的同源样本数据分类存储的预处理方法,其特征在于,所述步骤S3中还包括分析步骤S31,具体为:
根据用户代理标识来判断用户的基本属性;
根据经过行业领域划分的所述网络行为日志数据进行领域间的关联分析和相互检测。
4.面向行业领域的同源样本数据分类存储的预处理系统,其特征在于,包括:
关键字集建立模块,用于创建包含各行业领域平台字段的关键字集;
数据获得模块,用于获得用户网络内所有成员的网络行为日志数据;
数据划分模块,用于对所述网络行为日志数据进行行业领域匹配并进行行业领域划分;
数据分析模块,用于根据经过行业领域划分的所述网络行为日志数据对所述成员在各个领域内的网络行为活动进行分析,推测用户的基本属性和网络行为特性进行分类储存,实现面向行业领域的同源样本数据分类存储的预处理;
所述数据获得模块包括,
初始数据单元,用于由同一个路由器物理地址上报的数据经过解析处理获得到内部的网络行为日志集;
设备数据单元,用于根据连接在路由器上的设备物理地址将所述网络行为日志集进行划分,储存为设备数据集。
5.根据权利要求4所述的面向行业领域的同源样本数据分类存储的预处理系统,其特征在于,所述数据划分模块具体为;
筛选单元,用于对所述设备数据集中每一条统一资源定位符数据进行分块处理,并从所述设备数据集数据中筛选出特征词;
清洗单元,用于当对所述网络行为日志数据进行行业领域匹配时,匹配出的变量为假时,对所述特征词所在的所述设备数据集数据进行清洗。
6.根据权利要求4所述的面向行业领域的同源样本数据分类存储的预处理系统,其特征在于,所述数据分析模块还包括:
分析检测单元,用于根据用户代理标识来判断用户的基本属性;
根据经过行业领域划分的所述网络行为日志数据进行领域间的关联分析和相互检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市其乐游戏科技有限公司,未经深圳市其乐游戏科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710660357.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效农药喷洒装置
- 下一篇:一种农业喷药装置