[发明专利]重复负序列模式在客户购买行为分析中的应用有效
申请号: | 201510025944.9 | 申请日: | 2015-01-19 |
公开(公告)号: | CN104537553B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 董祥军;宫永顺 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 济南金迪知识产权代理有限公司37219 | 代理人: | 吕利敏 |
地址: | 250353 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 序列 模式 客户 购买 行为 分析 中的 应用 | ||
1.一种重复负序列模式在客户购买行为分析中的使用方法,包括步骤如下:
(1)定义一个负序列在一个数据序列中出现的次数
MPS(ns)是指一个由客户购买的商品组成的负序列ns的最大正子序列,其由ns中包含的所有正元素按照原顺序组成;
一个负序列在一个数据序列中出现的次数由它的左终止位置决定;令ds=<d1d2…dn>是一个数据序列,对一个负序列ns,如果并且1<p≤n,使得则称p为左终止位置,定义为LAE(ns,ds)=p,其中p≥1因为已经满足如果则LAE(ns,ds)=1;
计算ns在ds中出现的次数t,并将该计算t的方法定义为t=RptTimes(ns,ds):
首先使用LAE(ns,ds)获得ns在ds中的左终止位置p,如果p>0,则t=t+1,之后令ds=<dp+1…dn>,重复以上步骤直到
负序列ns:
RptTimes(ns,ds)=RptTimes(MPS(ns),ds),如果
给出s1=<ab>,ds1=<aca(ab)cb>,ds2=<abababd>,则LAE(s1,ds1)=4,LAE(s1,ds2)=2,RptTimes(s1,ds1)=1,RptTimes(s1,ds2)=3;LAE(s2,ds1)=2,LAE(s2,ds2)不存在因为
(2)负序列的重复支持度计算
负序列ns的重复支持度是负序列在所有数据序列中重复出现的次数,定义为rps_count(ns),那么ns在序列数据库D中的重复支持度为:
(3)利用e-RNSP算法的步骤如下:
首先,使用重复正序列挖掘算法RptGSP挖掘得到所有的重复正序列模式,即在某一段时间内,客户重复购买量大的商品;
然后,基于所述重复正序列模式生成相应的重复负候选序列,该负候选序列用于判断在某一段时间内,哪些商品客户购买的多,哪些商品客户没有购买;
其次,利用相关的重复正序列模式的支持度来计算负候选序列的重复支持度;
再从所述负候选序列里筛选出符合最小支持度要求的重复负序列模式,再用现有适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的重复负序列模式对客户的购买行为进行分析;商家根据分析结果针对客户提供个性化服务,根据客户购买习惯安排商品的推荐顺序和频率;
(4)e-RNSP负候选序列的生成
改变正序列模式中任意不相邻元素为负元素;
(5)计算负候选序列的支持度
定义一个负候选序列:
1-negMSns:负序列ns的子序列,并且该子序列是由MPS(ns)以及一个负元素组成;
1-negMSSns:包含负序列ns的所有1-negMSns子序列的集合;
p(1-negMS):序列1-negMS中的正元素不变,将负元素转换为相应的正元素;
一个大小为m并且含有n个负元素的序列ns,对于在序列数据库D中ns的支持度sup(ns)由以下几个公式计算得出:
使用公式(iii)来获得所有包含ns的数据序列的sid,其中{MPS(ns)}是所有包含MPS(ns)的数据序列的sid,是所有{p(1-negMSi)}组成的sid集合的并集;
所述ns的传统支持度由|{ns}|计算出,|{ns}|表示{ns}集合中sid的个数;所述ns的重复支持度为:
其中dsi是指包含ns的第i个数据序列,通过公式(i)计算RptTimes(ns,dsi),
如果ns的大小是1,那么负序列ns的支持度是:
sup(ns)=|D|-sup(p(ns))(v)
(6)算法伪代码
设计一个数据结构来存储e-RNSP相关数据,所述数据结构存储正候选序列和包含它的数据序列的{sid}以及重复次数;
所述e-RNSP算法是基于正序列模式来挖掘重复负序列模式,算法e-RNSP包括步骤如下:
其中,输入:D:客户购买序列数据库;min_sup:最小支持度;
输出:RNSP:用于分析客户购买行为的重复负序列模式的集合;
所述步骤(1-1)是用重复正序列模式挖掘算法RptGSP从序列数据库中挖掘出所有的重复正序列模式;步骤(1-2)和步骤(1-3)将所有的重复正候选序列以及它的重复支持度和sid的集合都被存储到哈希表RNSPHash;
所述步骤(1-6)是对于每一个重复正序列模式,通过步骤(1-4)中表述的负候选序列的生成方法来生成负候选序列RNSC;
步骤(1-7)至步骤(1-24),通过公式(i)-(v)计算出RNSC中的每一个rnsc的支持度;步骤(1-25)至步骤(1-27)然后判断出哪些是重复负序列模式RNSP;
其中步骤(1-8)至步骤(1-10),通过公式(v)计算出只含有一个负元素的rnsc的支持度,对于包含多于一个负元素的rnsc的支持度,通过公式(i)到公式(iv)计算出,如步骤(1-12)至步骤(1-24);
如果rnsc.support>=min_sup那么rnsc被加入到RNSP中,如步骤(1-25)至步骤(1-27);
返回结果,如步骤(1-29),再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的重复负序列模式来分析客户的购买行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510025944.9/1.html,转载请声明来源钻瓜专利网。