[发明专利]一种电子商务用户公共访问轨迹提取方法和装置无效
申请号: | 201010618096.X | 申请日: | 2010-12-31 |
公开(公告)号: | CN102542478A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 贾哲;田斌;李栋 | 申请(专利权)人: | 北京安码科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100082 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子商务 用户 公共 访问 轨迹 提取 方法 装置 | ||
1.一种电子商务用户公共访问轨迹提取方法,其特征在于,该方法包括:
通过DPI数据采集器采集电子商务网站的服务器流量,将采集的流量数据进行解析并存入数据库中;
对DPI采集的基础数据进行预处理;
挖掘用户访问序列,提取满足设定支持度阈值的序列模式,即为用户公共访问轨迹。
2.如权利要求1所述的方法,其特征在于,数据来源通过DPI数据采集器实时进行采集;
DPI数据采集器旁路部署在电子商务网站出口点的路由器上,镜像采集所有通过电子商务网站服务器的流量;
DPI采集的流量经过解析后,提取用户访问信息包括:用户访问的IP地址、访问时间、访问页面、登录的用户名,存入数据库中。
3.如权利要求1所述的方法,其特征在于,对采集的基础数据进行预处理,每日定时提取所有用户id,并根据用户id提取每个用户当日访问的页面id,存入数据库中,格式为:用户id、访问页面id、时间。
4.如权利要求1所述的方法,其特征在于,对采集的数据进行计算,设定支持度阈值,提取所有支持度大于阈值的用户访问序列,即所挖掘出的公共访问轨迹。
5.如权利要求4所述的方法,其特征在于,先找出各个频繁项,然后产生投影数据库的集合,每个投影数据库关联一个频繁项;每个数据库进行单独挖掘;算法构造前缀模式,它与后缀模式相连得到频繁模式,从而避免产生候选。
6.如权利要求5所述的方法,其特征在于,扫描数据库,得到满足支持度阈值的长度为1的频繁序列;根据1-频繁序列划分搜索空间;找出1-序列模式的子集,构造相应的投影数据库;令每个1-序列为前缀,产生该前缀的投影数据库,并进行挖掘,找出投影数据库中满足支持度阈值的1-序列,与前缀合并为2-频繁序列;令n-频繁序列(n>1)为前缀,构造该前缀的投影数据库,顺序进行递归挖掘,直至各投影数据库不能再产生任何频繁子序列,对该投影数据库的处理终止;用户访问的公共轨迹的集合是在以上递归挖掘过程中发现的模式的并集。
7.一种电子商务用户公共访问轨迹提取装置,其特征在于,该装置包括:
数据采集模块:用于电子商务用户公共轨迹提取的所有基础数据的采集和解析,存入数据库中;
基础数据预处理模块:用于将基础数据进行格式化预处理,每天自动定时进行处理,生成待挖掘的数据集;
公共用户轨迹挖掘模块:用于将预处理后的数据进行用户公共访问轨迹的挖掘,并进行挖掘结果的展示。
8.如权利要求7所述的装置,其特征在于,所述DPI数据采集模块包括:
DPI采集处理模块:对采集的流量数据包进行解析,存为数据信息log文件;
采集数据存储模块:数据入库脚本实时读取log文件并将用户访问数据存入数据库中。
9.如权利要求7所述的装置,其特征在于,所述基础数据处理模块包括:
数据提取模块,用于在每日零时定时提取前一天所有用户访问数据,存入视图中;
数据预处理模块,用于提取视图中前一天访问电子商务平台的所有用户id,并根据用户id提取用户前一天访问的所有页面id,存入数据库中,记录时间。
10.如权利要求7所述的装置,其特征在于,所述公共用户轨迹挖掘模块包括:
PrefixSpan挖掘算法模块,用于根据PrefixSpan算法处理数据,挖掘用户公共访问轨迹;
结果存储模块,将所有挖掘出的频繁序列进行合并,存入结果文件中;
显示模块,根据挖掘结果显示用户公共访问轨迹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京安码科技有限公司,未经北京安码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010618096.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种泛在传感网络控制器的发现方法
- 下一篇:太阳能电池模组免焊粘接技术