[发明专利]SVM模型的训练方法、装置、设备和计算机可读存储介质有效

申请号：	202110270550.5	申请日：	2021-03-12
公开（公告）号：	CN112686342B	公开（公告）日：	2021-06-18
发明（设计）人：	杨超;范睿博;敖玉龙;李敏;李克森	申请（专利权）人：	北京大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06T1/20;G06N20/10
代理公司：	北京华专卓海知识产权代理事务所(普通合伙) 11664	代理人：	王一;张继鑫
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	svm 模型训练方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种SVM模型的训练方法，其特征在于，包括：

获取数据集；所述数据集中样本的数量为n，维度为d，其中n、d为大于1的正整数；

加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换，包括在GPU上并行计算所述数据集的特征参数；在CPU上将所述特征参数输入决策树模型，预测得到所述数据集的最优存储格式；判断所述最优存储格式是否与当前存储格式CSR相同；如果否，则在GPU上将当前存储格式转换为所述最优存储格式；如果是，则不进行格式转换；其中，所述决策树模型是通过以下步骤训练得到的，生成数据集，计算所述数据集的特征集合数据，将所述特征集合数据作为训练数据；所述训练数据包括所述数据集的标签和特征参数；使用所述训练数据，通过决策树算法生成自动调优框架；

执行SMO算法对SVM模型进行训练。

2.根据权利要求1所述的方法，其特征在于，加载所述数据集包括：

读取并加载所述数据集进入CPU内存，将所述数据集存储为CSR格式的数据集矩阵M；所述数据集矩阵M的形状为n*d。

3.根据权利要求2所述的方法，其特征在于，执行SMO算法对SVM模型进行训练包括：

通过多次使用第一启发式选择多对待优化的拉格朗日乘子组成工作集；计算内核矩阵K的K_subset并提取K_core；

执行局部SMO求解器，采用SMO算法对所述工作集进行求解；其中，采用SMO算法对所述工作集进行求解包括从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)；更新所述α(high)与α(low)；访问所述K_core，更新所述工作集中的下标所对应的梯度向量；

更新全局的梯度向量；

判断是否满足全局层次的收敛条件；若满足则SVM模型训练完成；若不满足则进行迭代；其中，计算内核矩阵K的K_subset并提取K_core包括：

从数据集矩阵 M(n*d)中提取对应的行，组成M_subset(ws_size * d)；进而通过公式K_subset = M_subset × M’，计算得到K_subset(ws_size*n)；其中，ws_size为所述工作集的大小，M’为M的逆矩阵；

从矩阵K_subset(ws_size*n)中，抽取K_core(ws_size*ws_size)。

4.根据权利要求3所述的方法，其特征在于，从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)包括：

使用CUDA的warp shuffle指令，直接进行线程之间的寄存器通信，从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)。

5.一种基于SVM模型的识别方法，其特征在于，包括：

获取待识别的数据集；

加载所述待识别的数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换，包括在GPU上并行计算所述数据集的特征参数；在CPU上将所述特征参数输入决策树模型，预测得到所述数据集的最优存储格式；判断所述最优存储格式是否与当前存储格式CSR相同；如果否，则在GPU上将当前存储格式转换为所述最优存储格式；如果是，则不进行格式转换；其中，所述决策树模型是通过以下步骤训练得到的，生成数据集，计算所述数据集的特征集合数据，将所述特征集合数据作为训练数据；所述训练数据包括所述数据集的标签和特征参数；使用所述训练数据，通过决策树算法生成自动调优框架；

根据权利要求4所述方法训练得到的SVM模型对所述数据集进行识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110270550.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种高效精确搜索的麻将智能决策方法、系统及设备
下一篇：激光直写光刻机制作的三维微纳形貌结构及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]SVM模型的训练方法、装置、设备和计算机可读存储介质有效

专利文献下载