[发明专利]一种网络日志挖掘中的用户聚类方法及系统无效
申请号: | 201110131511.3 | 申请日: | 2011-05-20 |
公开(公告)号: | CN102158365A | 公开(公告)日: | 2011-08-17 |
发明(设计)人: | 万淼;李丽香;沈红斌;王枞;彭海朋;钮心忻 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络日志 挖掘 中的 用户 方法 系统 | ||
1.一种网络日志挖掘中的用户聚类方法,其特征在于,包括如下步骤:
对网络日志进行预处理,获得可信网络日志;
根据用户的访问兴趣以及该可信网络日志,建立表达用户是否访问了特征网页的用户访问模式矩阵;
使用基于菌群优化的聚类算法对该用户访问模式矩阵进行优化聚类,并根据预设的类别数目标签,标记用户所属的类别,建立用户公共档案;
根据该用户公共档案,将预取概率超过预设的预取概率阈值的页面提取并保存到缓存中。
2.根据权利要求1所述的方法,其特征在于,对该网络日志进行预处理的步骤,包括:
对该网络日志进行数据清洗、用户识别以及会话识别。
3.根据权利要求2所述的方法,其特征在于,对该网络日志进行该数据清洗的步骤,包括:
过滤网页中的图片,过滤动态网页以及点击率低于预设点击阈值的网页。
4.根据权利要求1所述的方法,其特征在于,使用该基于菌群优化的聚类算法对该用户访问模式矩阵进行该优化聚类,根据该类别标签标记用户所属的类别,建立该用户公共档案的步骤,包括:
使用该基于菌群优化的聚类算法对该用户访问模式矩阵进行优化聚类,得到聚类中心的位置;
根据用户与各聚类中心的距离,采用该类别标签标记用户所属的类别,根据用户所属的类别建立该用户公共档案。
5.一种网络日志挖掘中的用户聚类系统,其特征在于,包括:
预处理模块,用于对网络日志进行预处理,获得可信网络日志;
第一建立模块,用于根据用户的访问兴趣以及该可信网络日志,建立表达用户是否访问了特征网页的用户访问模式矩阵;
第二建立模块,用于使用基于菌群优化的聚类算法对该用户访问模式矩阵进行优化聚类,并根据预设的类别数目标记用户所属的类别,建立用户公共档案;
预提取模块,用于根据该用户公共档案,将预取概率超过预设的预取概率阈值的页面提取并保存到缓存中。
6.根据权利要求5所述的系统,其特征在于:
该预处理模块用于对该网络日志进行数据清洗、用户识别以及会话识别,获得该可信网络日志。
7.根据权利要求6所述的系统,其特征在于:
该预处理模块用于过滤网页中的图片,过滤动态网页以及点击率低于预设点击阈值的网页。
8.根据权利要求1所述的系统,其特征在于,该第二建立模块包括:
聚类单元,用于使用该基于菌群优化的聚类算法对该用户访问模式矩阵进行优化聚类,得到聚类中心的位置;
建立单元,用于根据用户与各聚类中心的距离,采用该类别标签标记用户所属的类别,根据用户所属的类别建立该用户公共档案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110131511.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塑胶外套打孔用冲头
- 下一篇:永磁双凸极电机可控整流发电系统