[发明专利]金融异常报文识别方法及装置有效
申请号: | 202110176723.7 | 申请日: | 2021-02-09 |
公开(公告)号: | CN112995155B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 李远东;郭越;韦东俊;李东丽 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06N20/00;G06Q40/02 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;孙乳笋 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 异常 报文 识别 方法 装置 | ||
1.一种金融异常报文识别方法,其特征在于,包括:
获取待识别报文;
根据所述报文收到时间、金额、报文发起人、报文发起机构以及预先建立的随机森林异常报文识别模型对所述待识别报文进行识别;
建立所述随机森林异常报文识别模型包括以下步骤:
利用随机森林算法建立所述随机森林异常报文识别模型的初始模型;根据已识别的异常报文、正常报文建立所述初始模型的训练集以及测试集;
利用所述训练集对所述初始模型进行训练;
利用所述测试集对训练结果进行验证,以生成验证结果;
根据预设验证阈值以及所述验证结果建立随机森林异常报文识别模型;
所述利用随机森林算法建立所述随机森林异常报文识别模型的初始模型包括:
根据基尼不纯度的算法建立所述初始模型,在构造的决策树过程中,决策树是逐层往下生成的,每个节点生成左右两个子节点时,都需要选取其中一个输入特征进行划分;计算中,采用每个特征代入不纯度的公式进行计算,最后选取最小的一个;基尼不纯度的计算公式:
其中,J为分类数量,等于2,即“异常/正常”;pi为第i个分类在样本中的出现概率;
每一层中基尼不纯度的加权计算公式:
使用以上最终可得到初始模型;
所述根据已识别的异常报文数据、正常报文建立所述初始模型的训练集以及测试集,包括:
对报文进行标记,以确定所述异常报文以及正常报文;
根据异常报文、正常报文以及预设比例生成训练集以及测试集;
所述根据异常报文、正常报文以及预设比例生成训练集以及测试集,包括:
根据转换后特征值、目标值生成数据集,生成特征值以及目标值之间的映射关系:将转换后的特征值、目标值映射到数组中,在内存中创建一个二维数组,将以上数组分隔为特征数组features、目标数组labels;接着,将特征数组features、目标数组labels再分隔为训练集、测试集;随机取数组中75%的记录作为训练集,25%的记录作为测试集;分隔之后,分别存到四个数组中:Train_features:用来训练的特征集;Train_labels:用来训练的目标集;Test_features:用来验证的特征集Test_labels:用来验证的目标集。
2.如权利要求1所述的金融异常报文识别方法,其特征在于,所述对报文进行标记,以确定所述异常报文以及正常报文包括:
根据异常报文中的异常特征值对所述报文进行标记;
所述异常特征值包括:所述异常报文的时间段特征、金额特征以及附言中关键词;
所述待识别报文包括:报文收到时间、金额、报文发起人、报文附言以及报文发起机构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110176723.7/1.html,转载请声明来源钻瓜专利网。