[发明专利]一种银行票据全自动化特征工程方法及装置有效
申请号: | 202210628458.6 | 申请日: | 2022-06-06 |
公开(公告)号: | CN114708608B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 陈嘉俊;杨国正;吴美学;张敬之;臧铖 | 申请(专利权)人: | 浙商银行股份有限公司;易企银(杭州)科技有限公司 |
主分类号: | G06V30/42 | 分类号: | G06V30/42;G06F16/215;G06Q40/02;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 311200 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 银行 票据 自动化 特征 工程 方法 装置 | ||
本发明公开了一种银行票据全自动化特征工程方法及装置,该方法包括:自动化票据识别;自动化数据清洗,形成基础数据集;自动化特征生成,根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集,通过构建特征生成树生成新的票据特征;自动化特征选择,通过将特征选择视为二元优化问题,分为靠近目标值和确定目标值两个阶段进行特征选择。本发明只需要在初始时设置可调节参数,后续流程皆可自动完成。本发明使用自动化特征工程能够节省人力、提高效率,有效为后续的银行票据机器学习分类任务提供优质特征。
技术领域
本发明属于特征工程技术领域,具体涉及一种银行票据全自动化特征工程方法及装置。
背景技术
在机器学习任务周期中,越来越多的流程向着自动化代替人力发展,诞生了许多代码库和自动化工具。这些代码库和自动化工具旨在通过寻找匹配数据集的最优模型来简化模型选择和机器学习调优过程,只需要很少的人工操作。特征工程是机器学习流程中极为重要的部分,特征工程的质量限制了机器学习模型所能达到的最佳效果,却几乎完全依靠人工实现。
票据市场是企业获取银行融资和信用支持的重要渠道。对票据数据的合理利用,有利于银行开拓新客户、稳定老客户、吸收存款。票据数据类型多样且复杂,数据量大,使用人力进行特征工程效率低,且也很难根据各类票据和下游任务的具体特点灵活的进行特征生成和特征选择。
发明内容
本发明目的在于针对现有技术的不足,提出一种银行票据全自动化特征工程方法及装置,提高银行票据数据的利用效率,节约人力,缩短项目周期。
本发明的目的是通过以下技术方案来实现的:
根据本说明书的第一方面,提供一种银行票据全自动化特征工程方法,包括以下步骤:
S1,自动化票据识别:收集票据图像,对票据图像进行图像处理和敏感性处理,获得原始票据数据D0,识别票据的业务类型并自动归档;
S2,自动化数据清洗:对原始票据数据D0进行数据清洗,再进行数据脱敏处理,形成基础数据集D1;
S3,自动化特征生成:根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F;
S4,自动化特征选择:将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,所述靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,所述确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。
进一步地,步骤S1中,所述图像处理包括自动去黑边、自动去噪,所述敏感性处理包括敏感信息识别、敏感信息遮挡。
进一步地,步骤S2中,所述数据清洗包括对数据类型分类、异常值处理、文本编码。
进一步地,步骤S3包括:
S31,从基础数据集D1中提取基础特征,形成初始特征集F0;
S32,构建特征转换函数集合和概率权重集合,其中,t_n为特征转换函数的个数,特征转换函数transi对应的概率权重为pi;计算每个特征转换函数transi作用于初始特征集F0的时间消耗ti,归一化时间消耗值,初始化概率权重集合P;将特征转换函数集合Trans和概率权重集合P依据概率权重值从大到小进行排序;设置构建特征生成树的最大时间消耗限制和最大空间消耗限制;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙商银行股份有限公司;易企银(杭州)科技有限公司,未经浙商银行股份有限公司;易企银(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210628458.6/2.html,转载请声明来源钻瓜专利网。