[发明专利]基于日志的用户行为数据处理方法、介质、设备及装置有效
申请号: | 201711408930.0 | 申请日: | 2017-12-22 |
公开(公告)号: | CN109145934B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 刘鑫琪;丛磊 | 申请(专利权)人: | 北京数安鑫云信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/9535 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 白莹;李冬梅 |
地址: | 100015 北京市朝阳区酒仙*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 分组 设备及装置 高维数据 特征组成 用户行为 数据处理 日志 低维 采集日志信息 访问行为 聚类过程 聚类结果 日志信息 访问 高维 内存 | ||
1.一种基于网络访问日志的用户行为数据处理方法,其特征在于,包括:
步骤1,采集日志信息;
步骤2,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
步骤3,将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
步骤4,对每个分组根据分组相应的簇数进行聚类获得聚类结果;
步骤5:根据所述聚类结果确定每个簇对应的用户,
其中,所述访问特征包括用户访问行为统计信息,所述访问行为值包括所述用户访问行为统计信息的值,所述用户访问行为统计信息包括2xx占比、3xx占比、4xx占比、5xx占比、GET请求占比、POST请求占比、HEAD请求占比、用户对访问主题的访问概率值。
2.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述方法还包括:
步骤6:判断所述簇中的用户数量小于预设阈值时,确定所述簇中的用户为异常用户;或者,判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
3.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将所述文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值。
4.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述方法还包括:针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果,将不同的聚类结果组合后对用户进行分类。
5.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述将访问特征划分为N个分组的方法是以下方法中的一种:
将属于同一类的访问特征划分为同一组;
将访问特征随机划分为N个分组。
6.一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现权利要求1至5中任意一项所述方法的步骤。
7.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至5中任意一项所述方法的步骤。
8.一种基于网络访问日志的用户行为数据处理装置,其特征在于,包括:
采集模块,用于采集日志信息;
提取模块,用于确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
分组模块,用于将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
聚类模块,用于对每个分组根据分组相应的簇数进行聚类获得聚类结果;
确定模块,用于根据所述聚类结果确定每个簇对应的用户,
其中,所述访问特征包括用户访问行为统计信息,所述访问行为值包括所述用户访问行为统计信息的值,所述用户访问行为统计信息包括2xx占比、3xx占比、4xx占比、5xx占比、GET请求占比、POST请求占比、HEAD请求占比、用户对访问主题的访问概率值。
9.如权利要求8所述的用户行为数据处理装置,其特征在于,
还包括:
判断模块,用于判断所述簇中的用户数量小于预设阈值时,确定所述簇中的用户为异常用户;或者,用于判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
10.如权利要求8所述的用户行为数据处理装置,其特征在于,
所述提取模块,用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值:根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将所述文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数安鑫云信息技术有限公司,未经北京数安鑫云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711408930.0/1.html,转载请声明来源钻瓜专利网。