[发明专利]一种基于动态阈值的时间序列数据序列模式挖掘方法有效
申请号: | 201910811085.4 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110609857B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 王巍;辛国栋;田静;吕芳;黄俊恒;魏玉良 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q40/04 |
代理公司: | 青岛华慧泽专利代理事务所(普通合伙) 37247 | 代理人: | 马千会 |
地址: | 264209 山东省威*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 阈值 时间 序列 数据 模式 挖掘 方法 | ||
本发明属于数据处理技术领域,涉及一种序列模式的挖掘方法。该方法包括:利用时间窗口对原始序列进行划分,形成时间序列集;扫描时间序列集,获取一项式集合;根据频繁一项式定义采用动态阈值对一项式进行筛选,将非频繁的项从序列集中删除,得到频繁一项式集;从频繁一项式集中的第一项开始以所述的第一项为前缀构造后缀,对后缀进行频繁多项式的挖掘,满足频繁多项式定义的项为频繁项,当后缀为空时,挖掘结束;遍历频繁一项式集合,迭代进行上一步操作,直到频繁一项式集合被遍历完成,得到频繁项集合。本发明的方法,在识别频繁一项式时,采用了动态变化的支持度阈值;不仅对不同序列之间频繁出现的模式进行挖掘,也挖掘一个序列内部频繁出现的模式。
技术领域
本发明属于数据处理技术领域,涉及一种序列模式的挖掘方法。
背景技术
异常金融交易模式是指在账户的交易数据中反映异常交易行为的特殊交易模式,如特殊的交易金额等。异常金融交易模式隐匿在很多非法金融活动中,如洗钱、信用卡欺诈、非法集资、传销等。而传销是金融安全领域中亟待解决的一项重要任务,其实质是组织者通过发展下线达到资金的非法聚敛与转移,危害人民生活与财产安全、扰乱社会经济正常秩序。金融交易数据分析,是实现异常交易模式挖掘和异常组织层级划分的有效途径。然而目前基于金融交易数据挖掘异常金融交易模式的方法,主要依赖于人工建立的规则库或简单的统计方法,需要耗费大量的时间人力,效率低下。数据挖掘方法可以帮助刑侦人员找到数据之间的联系,快速而高效的侦破案件,维护我国的金融和经济安全、社会稳定。
目前,基于项集和序列模式挖掘方法的异常金融交易模式识别在反洗钱、信用卡欺诈检测等领域已经取得了较大的进展。一些研究将聚类算法应用到洗钱检测和信用卡欺诈检测领域的交易行为模式识别且取得一定进展。有研究者提出了O-Apriori(VSO-Apriori)算法,实现多元时间序列的跨事务关联规则挖掘,对于预测金融时间序列的走势具有重要的意义。但该方法仅对多个不同时间序列之间共现的模式进行提取,对时间序列内部频繁模式发现问题未涉及。一些研究者针对序列模式挖掘中典型算法,如GSP、PerfixSpan等进行研究,并将序列模式挖掘算法应用于Web日志挖掘任务,GSP算法采用广度优先搜索策略,找到所有序列模式,但存在长序列处理效率低下的问题。PrefixSpan算法属于模式增长类算法,采用深度优先策略进行搜索,是基于投影数据库的算法。该方法提高了挖掘序列模式的效率,但面临存储空间占用过多的问题。
序列模式挖掘的数据集是具有顺序的,如时间序列、基因序列等。银行的交易记录是时序数据的典型代表。现有的序列模式挖掘工作,其核心思想是根据一个统一的支持度阈值来进行一项式和多项式的挖掘。将此类挖掘算法直接应用到传销模式挖掘的问题上将会有以下三个问题:1)交易记录中,正常金额出现的频率往往会高于异常金额。使用统一的阈值标准去进行挖掘,挖掘出来的结果往往繁杂且无用;2)传销活动中的申购和返利金额应有时效性,而普遍的序列模式挖掘算法很少关注数据的时效性;3)现有的序列模式挖掘算法只考虑一个模式在序列集中是否具有普适性,并没有考虑一个模式在序列内部重复出现的意义。而在传销活动中,传销模式不仅在序列间频繁出现,在序列内部也会频繁出现,这也是现有的序列模式挖掘算法无法满足的。
发明内容
本发明的目的是解决现有的序列模式挖掘技术中存在的问题,提供一种基于动态阈值的序列模式挖掘方法,该方法可以从时间序列数据中挖掘频繁模式,以便工作人员分析数据的关联性,发现有价值的信息。
本发明解决其技术问题采用的技术方案是:一种基于动态阈值的时间序列数据序列模式挖掘方法,包括:
(1)预处理原始银行交易序列数据,包括金额、交易时间信息,按照时间对其进行排序,利用时间窗口对原始序列进行划分,形成时间序列集;
(2)扫描时间序列集,获取一项式集合;
(3)针对银行交易中正常金额出现的频率高于异常金额的特点,在识别频繁一项式时使用不同的阈值标准;根据频繁一项式定义采用动态阈值对一项式进行筛选,将非频繁的项从序列集中删除,得到频繁一项式集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司,未经哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910811085.4/2.html,转载请声明来源钻瓜专利网。