[发明专利]一种银行票据全自动化特征工程方法及装置有效
申请号: | 202210628458.6 | 申请日: | 2022-06-06 |
公开(公告)号: | CN114708608B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 陈嘉俊;杨国正;吴美学;张敬之;臧铖 | 申请(专利权)人: | 浙商银行股份有限公司;易企银(杭州)科技有限公司 |
主分类号: | G06V30/42 | 分类号: | G06V30/42;G06F16/215;G06Q40/02;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 311200 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 银行 票据 自动化 特征 工程 方法 装置 | ||
1.一种银行票据全自动化特征工程方法,其特征在于,包括以下步骤:
S1,自动化票据识别:收集票据图像,对票据图像进行图像处理和敏感性处理,获得原始票据数据D0,识别票据的业务类型并自动归档;
S2,自动化数据清洗:对原始票据数据D0进行数据清洗,再进行数据脱敏处理,形成基础数据集D1;
S3,自动化特征生成:根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F; 包括:
S31,从基础数据集D1中提取基础特征,形成初始特征集F0;
S32,构建特征转换函数集合和概率权重集合,其中,t_n为特征转换函数的个数,特征转换函数transi对应的概率权重为pi;计算每个特征转换函数transi作用于初始特征集F0的时间消耗ti,归一化时间消耗值,初始化概率权重集合P;将特征转换函数集合Trans和概率权重集合P依据概率权重值从大到小进行排序;设置构建特征生成树的最大时间消耗限制和最大空间消耗限制;
S33,构建特征生成树:特征生成树的根节点为初始特征集F0;按照概率权重集合P从特征转换函数集合Trans中随机选择特征转换函数transi,计算被选择特征转换函数transi作用于当前特征生成树中的每个节点的信息增益,结合时间消耗和空间消耗计算被选择特征转换函数transi作用于特征生成树中每个节点的总收益度;更新本轮被选择特征转换函数transi的概率权重pi,将更新后的概率权重集合P重新归一化并排序;选择总收益度值最高的节点扩展特征生成树;当剩余时间或剩余空间为0时,停止构建特征生成树;将特征生成树的所有叶子节点取并集得到票据特征集F;
S4,自动化特征选择:将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,所述靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,所述确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述图像处理包括自动去黑边、自动去噪,所述敏感性处理包括敏感信息识别、敏感信息遮挡。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,所述数据清洗包括对数据类型分类、异常值处理、文本编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙商银行股份有限公司;易企银(杭州)科技有限公司,未经浙商银行股份有限公司;易企银(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210628458.6/1.html,转载请声明来源钻瓜专利网。