[发明专利]基于R语言环境的Vertica分布式分类预测方法及系统在审

申请号：	202010118935.5	申请日：	2020-02-26
公开（公告）号：	CN111339216A	公开（公告）日：	2020-06-26
发明（设计）人：	孙三山;肖阳阳;蔡苗;陈震宇;刘国华	申请（专利权）人：	中国邮政储蓄银行股份有限公司
主分类号：	G06F16/28	分类号：	G06F16/28;G06F16/27;G06F16/22;G06F16/215
代理公司：	北京市万慧达律师事务所 11111	代理人：	黄玉东
地址：	100032***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语言环境 vertica 分布式分类预测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于R语言环境的Vertica分布式分类预测方法及系统，涉及Vertica数据库技术领域，能够提升R功能包执行分类预测的效率。该方法包括：构建输入数据集和输出数据集，输入数据集包括由自变量数据和因变量数据组成的多个训练数据，输出数据集包括与每个训练数据对应的分类预测结果；将输入数据集加载到Vertica数据库上，并进行数据清洗；从R中构建分类预测主函数，根据输入数据集和输出数据集并调用预定义的R列表工厂函数和分类预测参数函数进行分类预测模型的训练，得到R功能包；将R功能包部署在Vertica数据库的各个节点上，实现对大数据的分类预测。该系统应用有上述方案所提的方法。

技术领域

本发明涉及Vertica数据库技术领域，尤其涉及一种基于R语言环境的Vertica分布式分类预测方法及系统。

背景技术

传统的R功能包仅适用于单机计算，不适合做分布式计算，故传统的R功能包不能够在Vertica上做分类预测的部署应用。

众所周知，大数据量级的分类预测时间长、效率低，因此，将R功能包部署在Vertica上做分类预测将成为解决上述问题的技术手段之一。

发明内容

本发明的目的在于提供一种基于R语言环境的Vertica分布式分类预测方法及系统，能够提升R功能包执行分类预测的效率。

为了实现上述目的，本发明的一方面提供一种基于R语言环境的Vertica分布式分类预测方法，包括：

构建输入数据集和输出数据集，所述输入数据集包括由自变量数据和因变量数据组成的多个训练数据，所述输出数据集包括与每个训练数据对应的分类预测结果；

将所述输入数据集加载到Vertica数据库上，并进行数据清洗；

从R中构建分类预测主函数，根据所述输入数据集和所述输出数据集并调用预定义的R列表工厂函数和分类预测参数函数进行分类预测模型的训练，得到R功能包；

将R功能包部署在Vertica数据库的各个节点上，实现对大数据的分类预测。