[发明专利]一种生成集体宿舍IP库的方法和装置有效
申请号: | 201410177742.1 | 申请日: | 2014-04-29 |
公开(公告)号: | CN105025115B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 丁若谷;张诗晨;冯是聪;吴明辉 | 申请(专利权)人: | 北京秒针信息咨询有限公司 |
主分类号: | H04L29/12 | 分类号: | H04L29/12 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王丹;栗若木 |
地址: | 100086 北京市海淀区青云里满庭芳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种生成集体宿舍IP库的方法及装置;方法包括:收集指定IP范围内用户的上网行为数据,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,其余作为第二数据集合;计算第一比例;对于第二数据集合中的各cookie,分别选出差异最小的P个第一数据集合中的cookie,并计算其中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于第一比例,则标记为备选用户;分别统计各IP地址所对应的、属于预定时间段的上网行为数据所包括的cookie中,备选用户所占的第三比例,如果大于预定比例阈值,则判断为集体宿舍IP地址;取判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。 1 | ||
搜索关键词: | 集体宿舍 上网行为数据 备选用户 第一数据 数据集合 集合 方法和装置 预定时间段 统计 | ||
S101、收集指定IP范围内用户的上网行为数据;所述上网行为数据包括cookie、IP地址、访问的网站,上网时间;
S102、在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到第一比例;
S103、对于所述第二数据集合中的各cookie,分别选出与该cookie访问所述上网行为数据中所包括的各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中的cookie标记为备选用户;P为正整数;
S104、对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
S105、取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
2.如权利要求1所述的方法,其特征在于,所述对于所述第二数据集合中的各cookie,分别选出与该cookie访问所述上网行为数据中所包括的各网站的次数差异最小的P个第一数据集合中的cookie的步骤包括:根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行为数据中所包括的每个网站的访问次数;
对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值;
对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
3.如权利要求2所述的方法,其特征在于,所述根据所述上网行为数据分别统计各cookie对于上网行为数据中所包括的每个网站的访问次数的步骤包括:根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个数;根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。4.如权利要求3所述的方法,其特征在于,所述对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值的步骤包括:对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对各网站访问次数的差异值。
5.如权利要求1到4中任一项所述的方法,其特征在于:所述P为所述第一数据集合中cookie个数除以100得到的商向上或向下取整后的得数,与5中较大者;所述预定比例阈值为50%。
6.一种生成集体宿舍IP库的装置,其特征在于,包括:收集模块,用于收集指定IP范围内用户的上网行为数据;所述上网行为数据包括cookie、IP地址、访问的网站,上网时间;
预处理模块,用于在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到第一比例;
标注模块,用于对于所述第二数据集合中的各cookie,分别选出与该cookie访问所述上网行为数据中所包括的各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中的cookie标记为备选用户;P为正整数;
判断模块,用于对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
建库模块,用于取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
7.如权利要求6所述的装置,其特征在于,所述标注模块对于所述第二数据集合中的各cookie,分别选出与该cookie访问所述上网行为数据中所包括的各网站的次数差异最小的P个第一数据集合中的cookie是指:所述标注模块根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行为数据中所包括的每个网站的访问次数;对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值;对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
8.如权利要求7所述的装置,其特征在于,所述标注模块根据所述上网行为数据分别统计各cookie对于上网行为数据中所包括的每个网站的访问次数是指:所述标注模块根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个数;根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。
9.如权利要求8所述的装置,其特征在于,所述标注模块对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值是指:所述标注模块对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对各网站访问次数的差异值。
10.如权利要求6~9中任一项所述的装置,其特征在于:所述P为所述第一数据集合中cookie个数除以100得到的商向上或向下取整后的得数,与5中较大者;所述预定比例阈值为50%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京秒针信息咨询有限公司,未经北京秒针信息咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410177742.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种电子烟及其信息交互方法
- 下一篇:一种刚挠结合印制电路板的制作方法