[发明专利]一种考虑竞争模式的关联挖掘算法有效

专利信息
申请号: 201911024203.3 申请日: 2019-10-25
公开(公告)号: CN110909238B 公开(公告)日: 2022-06-07
发明(设计)人: 王全增;周士夺;李倩;刘红跃 申请(专利权)人: 北京比财数据科技有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/2455;G06Q40/06;G06Q40/04;G06K9/62
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100016 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 考虑 竞争 模式 关联 挖掘 算法
【权利要求书】:

1.一种考虑竞争模式的关联挖掘算法,其特征在于:

每笔理财产品交易记录的形式为二元组:ID,ProdList;其中ID为交易的序列号,ProdList是在一笔交易中数目不等的理财产品列表;

(一)生成频繁项集:

1)初始化计算支持度:扫描全部交易,设最小支持度为MinSupt;遍历所有理财产品,生成每个产品的1项集;每个产品的1项集的支持度为其中N为全部交易的笔数,np为理财产品p出现在交易记录中的交易记录数量;筛选支持度不小于最小支持度MinSupt的理财产品列表,得到频繁1项集列表;

2)自连接与剪枝:将上一步得到的频繁1项集列表中的项集进行自连接,生成2项集;随后进行剪枝处理,即对于生成的2项集,将子集含有非频繁项集的2项集剔除,生成2项集列表;

3)计算支持度:对于第二步生成的2项集列表,计算每个项集的支持度其中表示含有2项理财产品的2项集p2在全部交易中出现的交易次数,筛选支持度不小于最小支持度的理财产品列表,得到频繁2项集列表;

4)按照2,3步的方式,将2项集自连接并剪枝,筛选后得到频繁3项集列表;循环得到包含更多产品的项集列表;直到没有符合条件的项集列表,循环停止;

(二)生成关联规则

设第一步生成的频繁项集中的某项集{pi,pj}的支持度为supt({pi,pj}),则置信度筛选置信度不小于最小置信度的理财产品列表,得到关联规则;

a)生成关联规则

A.生成频繁2项集

(1)计算支持度:遍历全部理财产品交易记录,遍历所有理财产品,生成每个产品的1项集;1项集每个产品的支持度为其中N为全部交易的笔数,np为理财产品p出现的交易笔数;筛选支持度不小于最小支持度MinSupt1的理财产品,得到频繁1项集列表;MinSup1取各产品支持度的平均数或中位数,若为小数则向下取整,即只选取整数位;

(2)自连接:将上一步得到的频繁1项集列表进行自连接,生成2项集,形式为{pi,pj};计算2项集各产品对的支持度其中N为全部交易的笔数,为理财产品对{pi,pj}出现的交易笔数;筛选支持度不小于最小支持度MinSupt2的理财产品对,得到频繁2项集列表;MinSupt2取各产品对支持度的平均数或中位数,若为小数则向下取整,即只选取整数位;

B.生成关联规则

将频繁2项集中的每一个产品对作为一条关联规则,格式如pi,pj,1,此处有标志位1表示此规则为关联规则;计算每条规则的置信度设最小置信度为MinConf,筛选置信度不小于最小置信度的理财产品对列表,得到关联规则网络Net=[P,M,T];其中P为理财产品集合,即P=[p1,p2...pu],p为单个理财产品,u为理财产品总数;M为关联规则集合,即M=[m1,m2...mv],m为单条规则,形式为pi,pj,1,每条规则描述2个理财产品具有强关联关系,v为关联规则总数;T是理财产品描述标签的集合,即T=[t1,t2...tw],t为单条标签,w为标签总数,其中单个理财产品由s条标签描述,其中s的取值范围为[0,w];MinConf取各规则置信度的平均值或中位数;

b)协作关联采样:遍历关联规则网络中的每条关联规则m,去除掉关联规则本身自带的指向性,生成协作关联集合Cp;协作关联集合表示产品之间具有强关联;步骤如下:

输入:关联规则网络Net=[P,M,T]

2.1初始化Cp为空集

2.2对于关联规则集合中的每一条关联规则

2.2.1将关联规则按照理财产品ID由小到大排序后,赋值给临时变量cp;即cp←<pi,pj,1>(i<j);

2.2.2检查临时变量cp是否属于协作关联集合Cp;若不属于集合,则将cp加入Cp;即Cp←Cp∪{cp};

返回Cp作为采样的协作关联集合;

c)竞争关联采样:对于任意两个不属于关联规则的理财产品pi,pj,组合生成竞争关联备选集合C0,表示产品之间具有竞争关系;C0中每条备选竞争关联c0的采样概率为按照此概率对C0进行随机欠采样,生成一个大小为L的子集L的取值与协作关联集合的大小一样;具体步骤如下:

输入:关联规则网络Net=[P,M,T],竞争规则采样总数L,协作关联集合Cp

3.1初始化竞争关联备选集合C0为空集

3.2对于任意两个按照产品ID排序的理财产品

3.2.1如果该理财产品组合不属于协作关联集合Cp,即则:

3.2.1.1生成竞争关联,格式如pi,pj,-1,此处-1为标志位,表示此关联为竞争关联;将其赋值给临时变量c0;即c0←pi,pj,-1(i<j)

3.2.1.2检查c0是否属于C0,若不属于竞争关联备选集合,则将该竞争关联加入C0;即C0←C0∪{c0}返回C0作为竞争关联备选集合;

3.3对3.2步最终生成的竞争关联备选集合C0进行随机欠采样,定义对于集合C0中每条竞争关联c0的采样概率为随机采样为一个大小为L的集合其中Nor是归一化系数,以保证product(c0)为竞争关联c0=pi,pj,-1的热度积,其定义为product(c0)=pop(pi)*pop(pj),此处pop(p)表示理财产品p的热度,即为用户对理财产品产生行为的次数;time(c0)为竞争关联c0=<pi,pj,-1>的冷却时间,其定义为time(c0)=now-max(date(pi),date(pj)),其中date(p)表示理财产品p的发布时间,max(date(pi),date(pj))表示两个产品中发布时间比较晚的时间点,now表示当前时间点;

返回CL作为竞争关联集合;

d)产生备选关联规则:首先,通过关联采样得到一个均衡的训练关联集C=Cp∪CL;如果训练关联集C中至少存在一个关联服从某规则r,则此规则就被视为备选规则;例如有一规则r为:用户喜欢购买同一银行的理财产品;若C中有产品对pi,pj,1或pi,pj,-1,pi和pj的银行属性标签属于同一银行,则r作为备选规则;关联集C相应的完全备选关联规则集表示为即将产品的标签和标签数量都符合的关联规则r加入备选关联规则集中;

定义关联规则r的支持度为supp(r);supp(r)为集合C中服从该规则的理财产品关联数量,即

定义关联规则r的显著度为sig(r);sig(r)为关联集C中服从该规则的理财产品的协作关联数量与竞争关联数量的差值,和协作关联与竞争关联之和的比值,即

如果规则r是协作关联规则,那么r满足的理财产品协作关联数量不少于竞争关联数量,即sig(r)不小于零;反之规则r是竞争关联规则;

基于关联规则的支持度和显著度,提出可靠的理财产品关联规则备选集生成算法:

输入:理财产品关联集合C=Cp∪CL,最小的关联规则支持度MinSupp和最小的关联规则显著度MinSig;

4.1初始化备选关联规则集为空集可靠备选关联规则集Rc为空集

4.2对于每个理财产品关联c=p1,p2,1∈C或c=p1,p2,-1∈C:

4.2.1将符合关联c的规则r加入备选关联规则集即

4.3对于每一条理财产品关联规则

4.3.1如果规则r的支持度supp(r)不小于最小支持度MinSupp;即supp(r)≥MinSupp,且置信度sig(r)的绝对值不小于最小置信度MinSig,即|sig(r)|≥MinSig,则:

4.3.1.1将规则r加入可靠备选关联规则集Rc,即Rc←Rc∪{r}

返回Rc作为可靠的备选理财产品关联规则集;MinSupp的设定是平均值或中位数,若为小数则向下取整,即只选取整数位;MinSig的设定显著度绝对值的平均值或中位数,若为小数则向下取整,即只选取整数位;

e)关联规则树模型的训练:定义关联规则树是一个二叉树,其中每个非叶子节点包含一条理财产品关联,而每个叶子节点中含有理财产品关联的标签;1表示协作关联,-1表示竞争关联;

关联规则树的训练过程如下:

输入:训练关联集C=Cp∪CL,可靠备选规则集Rc和树的最大深度d;格式如RuleTree(C,Rc,d);

5.1如果竞争关联集合CL为空集,即且C=Cp,则:

返回一棵单节点的树,根节点为1;

5.2如果协作关联集合Cp为空集,即且C=CL,则:

返回一棵单节点的树,根节点为-1;

5.3如果可靠备选关联规则集即d=0,则:

返回一棵单节点的树,根节点符号和集合C中数量最多类别的产品关联相同,数量相同时观察父节点规则;父节点规则为协作规则时节点符号定为1,为竞争规则时节点符号定为-1;

5.4选择最优关联规则r∈Rc,使得样本集熵H(C+,C-)最小,当熵最小时,样本分类准确率最高;

5.5将符合规则r的样本赋值给集合变量C+,作为关联规则树的左子树样本集输入,即

5.6将不符合规则r的样本赋值给集合变量C-,作为关联规则树的右子树样本集输入,即C-←C-C+

返回一棵关联规则树,其根节点为r,左子树为RuleTree(C+,Rc-{r},d-1),右子树为RuleTree(C-,Rc-{r},d-1);然后递归调用RuleTree算法进行处理;

每个候选规则训练数据集分成两个子集,满足规则的产品关联的C+和剩下的产品关联C-;其结果的熵是:

选择最优的关联规则r使得熵H(C+,C-)最小,即分类准确度最高;并将r作为树的根节点,递归在集合C+和C_上调用RuleTree算法;

所构建的每一棵关联规则树的深度都被限制为1,即每棵树仅包含一个规则作为其根节点,以及标记为1和-1的两个叶子节点;在主循环的每次迭代中,RuleScore基于当前权重的理财产品关联训练集训练一个深度为1的关联规则树,然后更新该规则树的分类情况计算该规则树的评分,并更新训练样本的权重;正值评分的规则表示协作规则,负值评分的规则表示竞争规则;RuleScore算法具体步骤如下:

输入:均衡的训练样本集C=Cp∪CL和可靠备选规则集Rc,以及最大的迭代次数Q;

6.1初始化所有理财产品关联的权重此处account(C)为样本集C的总数;

6.2初始化所有备选规则的评分为Score(c)=0;

6.3在第q(q=1,…,Q)次迭代中:

6.3.1基于样本权重Dq(c)训练关联规则树γq(r)=RuleTree(C,Rc,1),其根节点为r;

6.3.2计算γq(r)对于C的错误分类率此处error(c)为关联规则树对样本的分类错误数量,account(C)为样本总数量;

6.3.3计算规则树的得分αq=0.5ln((1-εq)/εq),εq=0时,αq=1;

6.3.4更新规则得分:Score(r)=Score(r)+αq

6.3.5对于每个被γq(r)正确分类的样本c,更新样本权重为

6.3.6对于每个被γq(r)错误分类的样本c,更新样本权重为

6.3.7归一化样本集C使得总权重∑c∈CDq+1(c)=1;

返回所有关联规则的评分

基于关联规则的产品组合预测:

对于一个关联规则r∈rc,如果符合该规则的协作关联样本权重之和不小于竞争关联样本权重之和,则r是一个协作关联规则,反之r是一个竞争关联规则;考虑两个理财产品pi,pj∈P,那么可靠备选规则集合Rc中满足理财产品关联c=pi,pj,f(pi,pj)的规则集合为此处f(pi,pj)为两个产品的可组合性评分;

计算理财产品pi,pj的可组合性评分f(pi,pj)的预测值为如果R(pi,pj)中的协作规则越多,则f*(pi,pj)的值越大;如果R(pi,pj)中的竞争规则越多,则f*(pi,pj)的值越小;因此,如果f(pi,pj)的预测值f*(pi,pj)>0,则两个理财产品pi,pj进行组合;反之不适合构建产品组合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京比财数据科技有限公司,未经北京比财数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911024203.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top