[发明专利]一种折线滑动窗口累积差值对比分析相似程度的方法有效
申请号: | 201310656527.5 | 申请日: | 2013-12-06 |
公开(公告)号: | CN103761238B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 王锦龙;范渊;杨永清 | 申请(专利权)人: | 杭州安恒信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州中成专利事务所有限公司33212 | 代理人: | 周世骏 |
地址: | 310051 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 折线 滑动 窗口 累积 差值 对比 分析 相似 程度 方法 | ||
技术领域
本发明是关于行为关联分析业务领域,特别涉及一种折线滑动窗口累积差值对比分析相似程度的方法。
背景技术
在行为关联分析业务中,分析企业的某种商品的销售业绩(销售行为的销售额数据),分析每天销售高峰时间段的变化,分析企业的某几种商品的客户来源(销售行为的来源数据)的相似程度,进而对客户的关联消费习惯进行分析,为后续的营销方针提供指导,可见这种相似程度分析工作具有非常重要的作用。一般在行为关联分析业务中,会根据不同行为的数据分布特性,将数据经过汇总得到折线图表。
折线:X轴具有单位,每个单位上具有一个采样点,每个采样点在Y轴上有取值。一般常见的应用场景为:(1)X轴为时间,单位为指定的时间周期,比如:1秒、15分钟等;(2)Y轴为数量,单位为次;(3)一个采样点(x,y)表示在x时间周期内,即大于等于x秒时间点,小于x+1秒时间点,发生某种事件共计y次;
先发折线、后发折线:先发折线表示该折线对应的事件,应该发生在前。后发折线表示该折线对应的事件,应该发生在后。
匹配:为先发折线的某次事件,从后发折线的所有事件中,按照允许分布偏离窗口规则,找到一个事件进行配对;先发折线的某次特定事件,最多只能与后发折线中的一个事件进行配对;后发折线中的一个事件,最多只能被先发折线中的一个事件配对。
允许分布偏离窗口:假定分布偏离窗口大小为N,在两条折线LineA、LineB之间,在进行耦合度分析时,允许先发折线的某个采样点(Ax,Ay)对应的Ay次事件,与LineB中的(N+1)个采样点进行耦合关联,LineB中对应的时间段范围为x,x+1,x+2,…,x+N。
耦合度:在两条折线LineA、LineB之间,如果两条折线完全重合,即采样点的取值相同,此种情况的耦合度必然为全耦合;如果LineA中的每个采样点对应的每次事件,都能够在允许分布偏离窗口对应的LineB的时间段范围内的采样点对应的若干次事件,获得唯一匹配对应事件,并且最终LineB中的每个采样点钟的每次事件,都已经被匹配对应,那么两条折线间的耦合度为全耦合;全耦合时,耦合度指标应当达到最高。
偏离度:偏离度说明的是未能够获得配对的严重程度,全耦合时,偏离度指标应当为0,不能匹配的越多,偏离度指标应当越高。
直接偏离:对应汇总折线的同一时间段,两个采样点的Y轴取值的差额的绝对值。
方差偏离:对应汇总折线的同一时间段,其直接偏离的乘方。
目前在IT行业内,用于解决上述分析系统的相似关联分析的方法技术相当缺乏,提出能实现分析行为关联的相似程度的方法,并通过经过技术实践完成正式技术产品,具有广阔的应用前景。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供一种根据行为关联分析业务中的数据信息自动生成的折线图表,通过对两条折线的耦合度、偏离度进行分析,能够得到量化的耦合度、偏离度指标的折线对比分析相似程度的方法。为解决上述技术问题,本发明的解决方案是:
提供一种折线滑动窗口累积差值对比分析相似程度的方法,首先,根据行为关联分析业务的要求和不同行为的数据分布特性,从行为关联分析业务数据库中提取数据信息,并基于这些数据信息自动生成折线图表;
然后,假定图表中的两条折线分别为LineA和LineB,其中LineA为先发折线,LineB为后发折线,折线上的采样点(x,y),X轴为时间,单位为指定的时间周期(比如:1秒、15分钟等),Y轴为数量,单位为次,表示在x时间周期内,事件的发生次数为y次,LineA的采样点的X轴区间为[AXmin,AXmax],LineB的采样点的X轴区间为[BXmin,BXmax];
折线滑动窗口累积差值对比分析相似程度的方法,获得LineA和LineB间的相似度的量化指标,具体包括以下步骤:
步骤1):将折线LineA、LineB的每个采样点使用TypeNode类型变量保存,并将折线采用TypeNode类型变量的数组方式进行保存,即LineA的采样点数据保存在数组ArrNodesListA中,LineB的采样点数据保存在数组ArrNodesListB中,数组成员变量记为(xCur,yCur);所述TypeNode类型变量是指:成员变量为(x,y),且(x,y)中的x、y分别对应采样点的x坐标值和y坐标值,x、y是不小于0的整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术有限公司,未经杭州安恒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310656527.5/2.html,转载请声明来源钻瓜专利网。