[发明专利]基于R语言环境的Vertica分布式分类预测方法及系统在审
申请号: | 202010118935.5 | 申请日: | 2020-02-26 |
公开(公告)号: | CN111339216A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 孙三山;肖阳阳;蔡苗;陈震宇;刘国华 | 申请(专利权)人: | 中国邮政储蓄银行股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/27;G06F16/22;G06F16/215 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 100032*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 环境 vertica 分布式 分类 预测 方法 系统 | ||
本发明公开一种基于R语言环境的Vertica分布式分类预测方法及系统,涉及Vertica数据库技术领域,能够提升R功能包执行分类预测的效率。该方法包括:构建输入数据集和输出数据集,输入数据集包括由自变量数据和因变量数据组成的多个训练数据,输出数据集包括与每个训练数据对应的分类预测结果;将输入数据集加载到Vertica数据库上,并进行数据清洗;从R中构建分类预测主函数,根据输入数据集和输出数据集并调用预定义的R列表工厂函数和分类预测参数函数进行分类预测模型的训练,得到R功能包;将R功能包部署在Vertica数据库的各个节点上,实现对大数据的分类预测。该系统应用有上述方案所提的方法。
技术领域
本发明涉及Vertica数据库技术领域,尤其涉及一种基于R语言环境的Vertica分布式分类预测方法及系统。
背景技术
传统的R功能包仅适用于单机计算,不适合做分布式计算,故传统的R功能包不能够在Vertica上做分类预测的部署应用。
众所周知,大数据量级的分类预测时间长、效率低,因此,将R功能包部署在Vertica上做分类预测将成为解决上述问题的技术手段之一。
发明内容
本发明的目的在于提供一种基于R语言环境的Vertica分布式分类预测方法及系统,能够提升R功能包执行分类预测的效率。
为了实现上述目的,本发明的一方面提供一种基于R语言环境的Vertica分布式分类预测方法,包括:
构建输入数据集和输出数据集,所述输入数据集包括由自变量数据和因变量数据组成的多个训练数据,所述输出数据集包括与每个训练数据对应的分类预测结果;
将所述输入数据集加载到Vertica数据库上,并进行数据清洗;
从R中构建分类预测主函数,根据所述输入数据集和所述输出数据集并调用预定义的R列表工厂函数和分类预测参数函数进行分类预测模型的训练,得到R功能包;
将R功能包部署在Vertica数据库的各个节点上,实现对大数据的分类预测。
优选地,所述因变量数据为二元变量。
优选地,所述分类预测主函数中的分类预测函数为用于逻辑回归算法的glm函数、用于决策树算法的rpart函数或者用于随机森林算法的randomForest函数。
优选地,所述R列表工厂函数包括用户自定义的R功能包名称、输入数据框的字段类型和输出数据框的字段类型。
优选地,所述分类预测参数函数包括输入数据框长度、输出数据框长度、迭代训练次数和最小误差值。
优选地,对所述输入数据集进行数据清洗的方法包括:
对所述输入数据集中的空值和/或异常值进行修正或剔除。
较佳地,在将R功能包部署于Vertica数据库上的各个节点之前还包括:
对所述输入数据集进行分层随机抽样,将抽样数据输入R功能包进行试预测;
将所述试预测结果与抽样数据在所述输出数据集中对应的分类预测结果比对;
当比对结果的预测正确率小于阈值时,提示修改所述R列表工厂函数和/或所述分类预测参数函数,并重新进行分类预测模型的训练;
直至比对结果的预测正确率大于或等于阈值时,将当前的分类预测模型作为最优的R功能包部署在Vertica数据库的各个节点上。
与现有技术相比,本发明提供的基于R语言环境的Vertica分布式分类预测方法具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国邮政储蓄银行股份有限公司,未经中国邮政储蓄银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010118935.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:不良产品的复核方法及装置
- 下一篇:触控系统