[发明专利]一种基于孤立森林算法的金融交易系统异常识别方法在审

申请号：	201910713786.4	申请日：	2019-08-02
公开（公告）号：	CN111798312A	公开（公告）日：	2020-10-20
发明（设计）人：	杨健颖	申请（专利权）人：	深圳索信达数据技术有限公司
主分类号：	G06Q40/04	分类号：	G06Q40/04;G06K9/62
代理公司：	深圳市千纳专利代理有限公司 44218	代理人：	黄良宝
地址：	518000 广东省深圳市南山***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于孤立森林算法金融交易系统异常识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于孤立森林算法的金融交易系统异常识别方法，涉及金融风控系统技术领域，步骤：S1，对原始数据进行一致性检查，清除无效数据和重复数据，填补缺失值，并将类别变量转化为数值型变量；S2，对输入的数据进行孤立森林建模；S3，计算样本点在孤立森林模型中的路径长度计算异常值得分；S4，根据经验设定一个异常值得分的阈值，将异常值得分大于阈值的交易行为判断为异常行为，将异常行为报告到验证模块，通过进一步手机验证码安全验证来防范交易风险。本发明输入数据的门槛要求大大降低了，可以将更多的数据输入模型，得到更精确的结果。可以减小传统有监督的金融异常识别模型只能识别历史已有的欺诈行为这一局限性。

技术领域

本发明涉及金融风控系统技术领域，具体涉及金融风控系统中关于金融交易系统异常识别的数据优化处理方法改进方面。

背景技术

风控是金融领域最重要的环节之一，对金融交易行为的异常识别可以有效提高金融风控的水平。以往的识别方法一般是构建有监督的分类模型来进行分析，有风险是一类，无风险是另一类。这种方法主要有两个缺陷：第一，这种有监督模型需要事先知道用户或交易行为是否异常的标签，这类有标签的数据实际情况下不易获取，而且能获取的量通常也不是很多。第二，这种模型的数据来自历史已有的数据，这导致这些模型只能识别历史数据中已经存在的欺诈行为，而新的欺诈行为由于不在历史数据中故难以识别，这导致模型精度不够。

发明内容

本发明的目的是改善现有异常识别算法的不足，提供一种基于孤立森林算法的金融交易系统异常识别方法，这是一种运行高效的无监督算法。在不事先给定金融交易是否异常这一标签的情况下，通过分析金融交易数据彼此之间的规律，给出金融交易异常的可能性大小，从而识别出异常的金融交易。最后将异常交易报告到验证模块做进一步的安全验证来达到更好防范金融交易风险的目的。

为解决本发明所提出的技术问题，采用的技术方案为：一种基于孤立森林算法的金融交易系统异常识别方法，其特征在于：包括以下步骤：

S1，对原始数据进行一致性检查，清除无效数据和重复数据，填补缺失值，并将类别变量转化为数值型变量；

S2，对输入的数据进行孤立森林建模；

S3，计算样本点在孤立森林模型中的路径长度计算异常值得分；

S4，根据经验设定一个异常值得分的阈值，将异常值得分大于阈值的交易行为判断为异常行为，将异常行为报告到验证模块，通过进一步手机验证码安全验证来防范交易风险。

作为对本发明进一步限定的技术方案包括有：

所述步骤S2包括：

孤立森林模型是由很一棵以上孤立树组成的一种树型集成的模型，每棵孤立树的所有节点都有2个子节点或没有子节点；

给定含n个样本的集合X＝{x₁,x₂,...,x_n}，通过随机选择数据集的特征q和随机选择特征的分裂值p来递归样本集X，从而建立孤立树；

递归建立孤立树的过程直到满足以下三个条件之一才停止：①孤立树的深度达到限定的最大值；②某次递归后孤立树的节点只有一个样本；③某次递归后孤立树的节点所包含的数据都有相同的值；

先对原始数据进行t次抽样，每次抽取一部分数据建立一个孤立树，t次抽样建立t棵孤立树，这t棵孤立树组成了孤立森林。

所述步骤S3包括：