[发明专利]支持SQL驱动的AI与特征工程的决策型分布式数据库系统有效

专利信息
申请号: 201811190144.2 申请日: 2018-10-12
公开(公告)号: CN109408591B 公开(公告)日: 2021-11-09
发明(设计)人: 张德辉 申请(专利权)人: 北京聚云位智信息科技有限公司
主分类号: G06F16/27 分类号: G06F16/27;G06F16/25
代理公司: 北京卓爱普专利代理事务所(特殊普通合伙) 11920 代理人: 王玉松
地址: 100101 北京市朝阳区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 支持 sql 驱动 ai 特征 工程 决策 分布式 数据库 系统
【说明书】:

发明属于分布式数据库技术领域,特别涉及一种支持SQL驱动的AI与特征工程的决策型分布式数据库系统。本发明提供一种新的支持SQL驱动的AI与特征工程的决策型分布式数据库系统,该支持SQL驱动的AI与特征工程的决策型分布式数据库系统从结构上看,一套决策型数据库就可以胜任了,这样数据不再需要从数据库导出来,也不存在数据导出的安全隐患;从功能上看,决策型数据库具备智能特征工程的能力,这是现有分析型数据库加上二次开发的AI分析程序的方案所不具备的;从成本看,决策型数据库提供AI SQL这种SQL 2011标准的扩展SQL,减低了AI使用的门槛以及对AI编程开发人员的需求,节省了AI项目的成本。

技术领域

本发明属于分布式数据库技术领域,特别涉及一种支持SQL驱动的AI与特征工程的决策型分布式数据库系统。

背景技术

现有的数据库在分析决策方面主要聚焦在OLAP(即Online AnalyticalProcessing,联机分析处理)领域,支持SQL标准的OLAP分析,包括聚集函数、窗口函数和立方体(Cube)查询,普遍对AI(即Artificial intelligence,人工智能)这类高级计算支持不足。MySQL 8.x、Teradata 16不支持AI计算;Oracle 18c支持少量的简单的数据挖掘函数,主要通过DBMS_DATA_MINING PL/SQL package以扩展函数的方式提供给用户;SQL Server2017主要采用让用户自定义Python存储过程的方式来实现AI的计算;PostgreSQL 11及其低版本衍生改进而成的新型分析型分布式数据库如Greenplum 5.x、Hawq 2.x(对应的商业版有OushuDB 3.x)均主要依赖于为PostgreSQL定制的开源机器学习库MADLib实现AI计算。

而现有的AI计算软件工具包(如Tensorflow,Keras,Scikit-learn)提供了较为丰富的AI计算函数库,涵盖AI计算的完整环节,包括特征工程(含特征提取、特征转换、特征选择)、模型训练、模型评估、参数调节、模型应用。由于这些AI函数库的使用对于非AI专家而言,异常繁杂、实践困难,使得AutoML(即Automated Machine Learning,自动化机器学习)的需求变得非常迫切,其中杰出的产品当以云服务形态的Google Cloud AutoML、面向Scikit-learn的AutoSklearn以及SMAC(即sequential model-based algorithmconfiguration,基于顺序模型的算法配置)系列(如SMAC v2in Java、SMAC v3in Python)。这些AutoML的工具包主要部分解决了超参数优化的问题,在智能视觉领域尤其是图像识别应用中取得较好的效果,大大提升了AI建模的效率。但是在特征工程方面比较依赖于人的决策,这主要在于现实中存在各种来源的数据,除了数据库的数据外还包括各种千变万化的数据来源(如互联网、excel等等),而作为通用的AI计算软件包很难做出一些假设去自动化特征工程,以任意一个数值型字段为例,究竟是采用以x为底的对数函数还是采用开n次方来做规范化是很难自动决策的,事实上特征处理的可选的函数空间本身就是无限维度的超级空间。

对于越来越依赖于复杂AI计算的企业决策型应用而言,由于无法只依赖现有的数据库解决问题,只好在AI计算的时候,从数据库导出企业数据,然后采用现有的AI计算软件工具包通过编程的方式来对企业数据进行AI计算。由于如上现状,目前企业依赖于复杂AI计算的决策分析通常采用数据库导出数据,然后再采用AI计算软件工具包进行二次开发。这种方式有如下明显的缺点:

(1)数据在模型构建阶段需要从数据库中导出来,在大数据的场景下,数据的移动成本很高,不仅仅耗时,而且需要额外的存储空间。

(2)数据从数据库导出来这个动作本身涉及到数据安全隐患,导出的数据脱离了数据库系统的安全审计,尤其是包含敏感数据一旦泄露后果不堪设想。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京聚云位智信息科技有限公司,未经北京聚云位智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811190144.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top