[发明专利]一种面向Spark MLlib机器学习算法优化方法在审

申请号：	202010411521.1	申请日：	2020-05-15
公开（公告）号：	CN111612154A	公开（公告）日：	2020-09-01
发明（设计）人：	陆保国;蒋炜;崔隽;雷斌;柯正祥;后弘毅	申请（专利权）人：	中国电子科技集团公司第二十八研究所
主分类号：	G06N20/00	分类号：	G06N20/00;G06Q10/04;G06K9/62;G06F17/18;G06F17/16
代理公司：	江苏圣典律师事务所 32237	代理人：	胡建华
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向 spark mllib 机器学习算法优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向Spark MLlib机器学习算法优化方法，其特征在于，包括以下步骤：

步骤1，通过训练数据集的扩充矩阵运算得到γ矩阵，所述γ矩阵包含训练数据集的统计信息，所述训练数据集的统计信息用于求解机器学习算法的参数；

步骤2，通过所述γ矩阵求解机器学习算法的参数。

2.根据权利要求1所述的一种面向Spark MLlib机器学习算法优化方法，其特征在于，所述步骤1包括：定义所述γ矩阵及γ矩阵的属性，所述γ矩阵的定义如下：

对于所述机器学习算法，所述训练数据集由相同维度的特征向量以及每个特征向量对应的标签构成，使用X代表d*n的输入矩阵，所述输入矩阵X的每一列都是训练数据集中一个样本的特征向量，d为所述特征向量的维数，n为所述训练数据集大小，Y代表标签向量，所述标签向量是一个n维向量，所述标签向量的每个值与训练数据集中每个样本一一对应；

所述γ矩阵的定义中：

n＝|X|

其中，n代表输入矩阵的大小，即训练数据集的大小，x_i代表输入矩阵X的第i列，即输入矩阵X的列向量，L代表输入矩阵X的第i列x_i的线性和，Q代表输入矩阵X所有列向量x_i的二次和，即所有列向量x_i的外积之和。

3.根据权利要求2所述的一种面向Spark MLlib机器学习算法优化方法，其特征在于，所述步骤1包括：所述γ矩阵通过输入矩阵X的一个扩充矩阵Z进行运算得到，所述扩充矩阵Z的定义为：

相应的γ矩阵表示为：

通过所述扩充矩阵Z的所有列向量x_i的外积之和计算γ矩阵，即

4.根据权利要求3所述的一种面向Spark MLlib机器学习算法优化方法，其特征在于，所述步骤2包括通过γ矩阵求解主成分分析算法的参数，包括：

计算所述输入矩阵X的协方差矩阵或关系矩阵，所述输入矩阵X的协方差矩阵表示为V，所述输入矩阵X的关系矩阵表示为ρ，所述关系矩阵ρ即对协方差矩阵V每个维度进行标准化后得到的矩阵；

根据所述关系矩阵ρ的公式和Γ矩阵的表达式，得出以下公式：

其中，ρ_ab为关系矩阵ρ第a行第b列的元素，n为训练数据集大小，Q_ab为x_i的二次和矩阵的第a行第b列元素，L_a为线性和向量的第a个元素，L_b为线性和向量的第b个元素，Q_aa为x_i的二次和矩阵的第a行第a列元素，Q_bb为x_i的二次和矩阵的第b行第b列元素；

将所述关系矩阵ρ作为主成分分析算法的关键参数，通过对所述关系矩阵ρ进行特征值分解，按照从大到小的顺序，取前k个的特征值对应的特征向量构成投影矩阵，将所述投影矩阵与输入矩阵X相乘即完成降维。

5.根据权利要求3所述的一种面向Spark MLlib机器学习算法优化方法，其特征在于，所述步骤2包括通过γ矩阵求解线性回归算法的参数，所述参数包括线性乘法的系数β，包括：

按照以下形式表达线性回归的数值解：

Y＝β^TX+∈

β＝(XX^T)^-1XY^T

＝Q^-1(XY^T)

其中，使用X代表d*n的输入矩阵，d为特征向量的维数，n为训练数据集大小，∈代表高斯误差，Q代表输入矩阵X所有列向量的二次和。

6.根据权利要求1所述的一种面向Spark MLlib机器学习算法优化方法，其特征在于，所述γ矩阵对于主成分分析算法模型或线性回归算法模型的训练数据集满足nd，即训练数据集的大小n远大于特征向量的维数d，此时满足O(d^2)O(dn)，O表示运算复杂度。

7.根据权利要求1所述的一种面向Spark MLlib机器学习算法优化方法，其特征在于，所述γ矩阵具有对称性，所述γ矩阵为对称矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所，未经中国电子科技集团公司第二十八研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010411521.1/1.html，转载请声明来源钻瓜专利网。

上一篇：行为训练对话控制方法、系统、存储介质、程序、终端
下一篇：电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向Spark MLlib机器学习算法优化方法在审

专利文献下载