[发明专利]一种逻辑回归模型的构建方法及系统在审

申请号：	201811142852.9	申请日：	2018-09-28
公开（公告）号：	CN109299740A	公开（公告）日：	2019-02-01
发明（设计）人：	王军平	申请（专利权）人：	北京赛博贝斯数据科技有限责任公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/31;G06F16/215;G06F16/28
代理公司：	北京冠和权律师事务所 11399	代理人：	朱健;张国香
地址：	102200 北京市昌平区沙***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	逻辑回归模型训练数据集评估函数构建分类数据自变量逻辑函数特征数据训练数据预设申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种逻辑回归模型的构建方法及系统，其中，所述方法包括：获取训练数据集和所述训练数据集对应的分类数据，其中，所述训练数据集中包括多个特征数据；基于预设逻辑函数和所述训练数据集以及所述分类数据，建立待评估函数；在所述待评估函数取最小值时，将所述待评估函数中的自变量作为构建的逻辑回归模型。本申请提供的技术方案，能够提高逻辑回归模型的精度。

技术领域

本发明涉及数据建模技术领域，特别涉及一种逻辑回归模型的构建方法及系统。

背景技术

传统数据挖掘对象多是结构化、单一对象的小数据集，挖掘更侧重根据先验知识预先人工建立模型，然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析，往往缺乏先验知识，很难建立显式的数学模型。

目前，为了实现对Spark、Ruby和MapReduce等大数据计算引擎云端无缝集成，并研制高性能通用超级计算引擎系统，往往需要依托于多种数学模型。在这其中，逻辑回归模型由于能够实现数据的分类，越来越受到人们的青睐。然而，当前的逻辑回归模型的精度均不高，无法对数据进行准确分类。

发明内容

本申请的目的在于提供一种逻辑回归模型的构建方法及系统，能够提高逻辑回归模型的精度。

为实现上述目的，本申请提供一种逻辑回归模型的构建方法，所述方法包括：获取训练数据集和所述训练数据集对应的分类数据，其中，所述训练数据集中包括多个特征数据；基于预设逻辑函数和所述训练数据集以及所述分类数据，建立待评估函数；在所述待评估函数取最小值时，将所述待评估函数中的自变量作为构建的逻辑回归模型。

进一步地，建立待评估函数包括：在所述分类数据的取值为1或0的情况下，基于预设逻辑函数计算所述训练数据集中单个特征数据的后验概率；根据所述训练数据集和所述分类数据，计算所述后验概率的极大似然函数；将所述极大似然函数取对数，并将取对数后的结果作为建立的所述待评估函数。

进一步地，按照以下公式计算所述训练数据集中单个特征数据的后验概率：

p(y|x,θ)＝(h_θ(x))^y(1-h_θ(x))^1-y

其中，p(y|x,θ)表示所述后验概率，h_θ(x)表示所述预设逻辑函数，θ表示待构建的逻辑回归模型的自变量，x表示训练数据集中的特征数据，y表示所述分类数据，其中，y取值1或0。

进一步地，按照以下公式计算所述后验概率的极大似然函数：

其中，L(θ|x,y)表示所述极大似然函数，m表示所述分类数据中数据的总数量。

进一步地，所述待评估函数的最小值利用梯度下降法求解。

进一步地，在构建了所述逻辑回归模型之后，所述方法还包括：

获取评价信息集，并利用所述逻辑回归模型对所述评价信息集中的评价样本进行预测；

根据预测结果，计算所述逻辑回归模型的精度参数和召回率参数，其中，所述精度参数和所述召回率参数用于表征所述逻辑回归模型的预测准确度。

为实现上述目的，本申请还提供一种逻辑回归模型的构建系统，所述系统包括：数据获取单元，用于获取训练数据集和所述训练数据集对应的分类数据，其中，所述训练数据集中包括多个特征数据；待评估函数建立单元，用于基于预设逻辑函数和所述训练数据集以及所述分类数据，建立待评估函数；逻辑回归模型构建单元，用于在所述待评估函数取最小值时，将所述待评估函数中的自变量作为构建的逻辑回归模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京赛博贝斯数据科技有限责任公司，未经北京赛博贝斯数据科技有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811142852.9/2.html，转载请声明来源钻瓜专利网。

上一篇：基于法向量的曲面拟合对车载激光点云滤波的方法
下一篇：一种基于多层检测的网络攻击类型识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种逻辑回归模型的构建方法及系统在审

专利文献下载