[发明专利]一种配资人资金账户识别及资金交易关系网络分析方法在审
申请号: | 202111548699.1 | 申请日: | 2021-12-17 |
公开(公告)号: | CN114372810A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 胡芃;王冲;张林;张犇 | 申请(专利权)人: | 南京维数软件股份有限公司 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06Q40/04;G06K9/62;G06N20/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210000 江苏省南京市栖*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 配资人 资金 账户 识别 交易 关系 网络分析 方法 | ||
1.一种配资人资金账户识别及分析方法,其特征是,包括以下步骤:
S1.资金交易数据采集并标记,资金交易数据来源多样,主要来源为反洗钱数据、所有银行数据、银联数据等,并通过前端采集工具采集并存入大数据平台,同时对采集的数据进行标记,其中标记包括配资人资金交易、非配资人交易;
S2.资金数据清洗、补全、去重,整个数据清洗原则包括全字段、全账单、全流程,按照“先补全-再去重-可恢复-即反馈-再优化”流程,利用机器实现自动补全、去重、清洗,建立人工干预机制,支持纠错反馈、数据恢复等功能,全面清洗数据;
S3.配资人资金特征选取,特征包括资金交易总金额,阈值大于1000万,资金交易总次数,阈值大于25,资金交易对手数量,阈值大于30,进出金额比例,阈值达到0.6,月交易总金额平均值,阈值大于600万等;
S4采用有监督机器学习中的逻辑回归算法,对账户配资的判断方法,流程如下,a).交易数据采集并标记;b).数据清洗;c).特征选取;d).划分训练集和测试集;e).算法选择;f).模型训练;g).模型验证。
2.根据权利要求1所述的分析方法,其特征是,S4详细流程如下:
a)交易数据采集并标记;对配资账户正常的账户集T1和配资账户非正常的账户集T0,并保持两个数据集的比列差不多保持在1∶1,便于提高算法正确率;将T0和T1数据集融合在一个数据集T,通过内网将数据生成一个xls文件,便于以后调用;
b)数据清洗;选取文件中的特定列名,并进行数据预处理,对未标明的用户账户的数据进行删除,对重复数据进行删除;对每列的空置进行对应列的处理,例如交易方式,将空置装换成一个字符串,对于金额装换成数字类型的数据;将金额数值中的负值转换成正数,便于以后特征列的计算;对很多不是真正用户的用户名称也删除,例如用户名是0,对于该种数据要删除;
c)特征选取;对xls文件中的列名进行筛选,有部分没有特点的数据进行删除,保留相对可以区分类别的特征列,例如金额,交易次数;对选取的列名进行整合,分别计算金额的均值,最大值和最小值,余额数据亦是如此;对用户的MAC地址进行数据统计,记录使用的次数,作为一个特征集;对借贷标志选取,统计用户分别对’进’,’出’的次数,选取相对较多次数状态进行填充借贷状态;最后对离散型数据进行onehot转换成多种特征列;
d)划分训练集和测试集;对样本集中的数据,按照训练集和测试集3∶1的状态选取数据,进行算法训练;
e)算法选择;机器学习中数据进行分类的算法很多(逻辑回归、朴素贝叶斯),本次选取的算法是使用机器学习中的逻辑回归算法;
对于逻辑回归(分类算法):
分类器的输入是(x1,x2,…,xn),x1,x2,…,xn分别表示为每一个特征的向量;
逻辑回归函数:
其中
其中:
阈值选取0-1中间0.5,当预测函数结果大于0.5,则预测为正,反之预测为负;
逻辑回归二分类,求解损失值,使得损失值达到最小,一直不断更新θ,并最终获得预测函数;
似然函数:
对数函数:
其中P(y=1|x;θ)=hθ(x),P(y=0|x;θ)=1-hθ(x)
对于朴素贝叶斯(分类算法):
朴素贝叶斯的输入是(x1,x2,…,xn),x1,x2,…,xn分别表示为每一个特征的向量;对于本案列是二分类,选取的类别分别为c1,c2;朴素贝叶斯是生成式模型,在此假设每列特征都是相互独立的,同时要先获得先验概率,
P(X1=x1|Y=ck),P(Y=ck)
P(X1=x1,X2=x2,...,Xn=xn|Y=ck)=P(X1=x1|Y=ck)P(X2=x2|Y=ck)...P(Xn=xn|Y=ck)
贝叶斯模型的预测:
f)模型训练;选取逻辑回归算法进行对用户配资状况进行分类;从d步骤中选取训练集,保持正负样本比列1∶1,对选取的特征做为分类器的输入,分类器的输入是(x1,x2,…,xn),x1,x2,…,xn分别表示为每一个特征的向量;将模型作为分类器输出,获得训练模型参数和分类模型;对于逻辑回归和朴素贝叶斯模型进行分类,根据他们分别训练模型的时间以及正确率,最终选取了逻辑回归算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京维数软件股份有限公司,未经南京维数软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111548699.1/1.html,转载请声明来源钻瓜专利网。