[发明专利]一种基于动态阈值的时间序列数据序列模式挖掘方法有效
申请号: | 201910811085.4 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110609857B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 王巍;辛国栋;田静;吕芳;黄俊恒;魏玉良 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q40/04 |
代理公司: | 青岛华慧泽专利代理事务所(普通合伙) 37247 | 代理人: | 马千会 |
地址: | 264209 山东省威*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 阈值 时间 序列 数据 模式 挖掘 方法 | ||
1.一种基于动态阈值的时间序列数据序列模式挖掘方法,其特征在于,包括:
(1)预处理原始银行交易序列数据,包括金额、交易时间信息,按照时间对其进行排序,利用时间窗口对原始序列进行划分,形成时间序列集;
(2)扫描时间序列集,获取一项式集合;
(3)针对银行交易中正常金额出现的频率高于异常金额的特点,在识别频繁一项式时使用不同的阈值标准;根据频繁一项式定义采用动态阈值对一项式进行筛选,将非频繁的项从序列集中删除,得到频繁一项式集;
(4)从频繁一项式集中的第一项开始以所述的第一项为前缀构造后缀,对后缀进行频繁多项式的挖掘,满足频繁多项式定义的项为频繁项,当后缀为空时,挖掘结束;
(5)遍历频繁一项式集合,迭代进行步骤(4)的操作,直到频繁一项式集合被遍历完成,得到频繁项集合;
所述的频繁一项式定义为:给定各项在正常交易数据中出现的概率P(normal)={p1,p2……pn},n0;计算各项在交易序列集中出现的概率Q={q1,q2……qn};满足以下公式的项认为是频繁一项式:
其中α为阈值系数,α*pi为qi的阈值;n表示第n项;
所述的频繁多项式的定义为:若事件A、B相互独立,则P(AB)=P(A)*P(B);若P(AB)P(A)*P(B),认为二者呈负相关,若P(AB)P(A)*P(B)认为二者呈正相关;其中P(A)=前缀A出现的次数/序列总数,P(B)=后缀B出现的次数/序列总数,P(AB)=模式AB共同出现的次数/序列总数;序列总数指的是经时间窗口划分后的序列的总数;目标是找到呈正相关的项集作为频繁项;当两个金额呈正相关,则认为其为申购返利模式。
2.根据权利要求1所述的基于动态阈值的时间序列数据序列模式挖掘方法,其特征在于,所述的频繁多项式的挖掘过程中,后缀的构造需要满足:同一位置的项不能和多个位置的相同项匹配,只能和一个位置的相同项进行匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司,未经哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910811085.4/1.html,转载请声明来源钻瓜专利网。