[发明专利]二分类模型训练方法、数据分类方法及对应装置在审

专利信息
申请号: 201811052418.1 申请日: 2018-09-10
公开(公告)号: CN109213833A 公开(公告)日: 2019-01-15
发明(设计)人: 赵红军;覃进学;赵神州;王纯斌 申请(专利权)人: 成都四方伟业软件股份有限公司
主分类号: G06F16/28 分类号: G06F16/28;G06K9/62
代理公司: 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人: 梁斌
地址: 610000 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 离散型 二分类 结构化数据 模型训练 训练样本 对应装置 数据分类 正样本 机器学习技术 机器学习算法 编码过程 训练集 替换 灾难 更新 转化 统计
【说明书】:

发明涉及机器学习技术领域,提供一种二分类模型训练方法、数据分类方法及对应装置。其中,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,二分类模型训练方法包括:统计离散型特征的不同的特征值在训练集的正样本中出现的次数;基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;将训练样本中的离散型特征的特征值替换为对应的编码值;利用更新后的训练样本训练二分类模型。结构化数据中的离散型特征被上述方法编码后,其特征值被转化为连续值,从而可以被现有的机器学习算法正确地处理,正常地用于训练二分类模型。同时,编码过程简单高效,不会导致维灾难问题。

技术领域

本发明涉及机器学习技术领域,具体而言,涉及一种二分类模型训练方法、数据分类方法及对应装置。

背景技术

随着大数据的兴起与人工智能的发展,越来越多的企业开始重视企业自身数据的利用与挖掘。企业的数据来源广泛,有人力资源数据、财务数据、产品设计数据、产品生产数据、库存数据、设备维护数据、市场数据等,这些数据中有些是连续型的,有一些则离散型的。在一些业务系统中直接用字符表示离散型特征,比如性别特征,用M表示男,F表示女,这些离散特征在数据进行机器学习算法前必须进行处理,将字符转换成数值,一些常用的机器学习算法才能正确处理。另一些业务系统用整型数字表示离散型特征,比如性别特征,用1表示男,0表示女,但与上面采用字符表示的方式没有本质区别,在很多机器学习算法中仍然要谨慎对待这样的离散型特征。

针对离散型特征,已有一些技术可将其转换成大部分机器学习算法可以接受的数值型特征,比如哑变量编码与One-hot编码,但这些编码技术只适合在离散型特征是低势特征的情况下使用。其中,特征的势是指离散型特征可取的不同的特征值数量,例如性别特征只有男女两个特征值可取,因此属于低势特征,邮政编码有大量的值可取,因此属于高势特征。如果离散型特征是高势特征,采用这些编码技术后获得的新特征维度过高,甚至导致维灾难问题。另一些编码技术虽然能够处理高势特征,但算法过于复杂,计算资源消耗量极大,实用价值不高。

发明内容

有鉴于此,本发明实施例提供一种二分类模型训练方法、数据分类方法及对应装置,有效地处理结构化数据中的离散型特征,处理后的结构化数据能够直接用于二分类模型的训练或者被二分类模型分类。

为实现上述目的,本发明提供如下技术方案:

第一方面,本发明实施例提供一种二分类模型训练方法,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,方法包括:

统计离散型特征的不同的特征值在训练集的正样本中出现的次数;

基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;

将训练样本中的离散型特征的特征值替换为对应的编码值;

在对训练样本中的每个离散型特征都完成特征值替换后,利用更新后的训练样本训练二分类模型。

第二方面,本发明实施例提供一种数据分类方法,用于对数据样本进行分类,数据样本为结构化数据,结构化数据中包括至少一个离散型特征,方法包括:

获得利用本发明实施例提供的二分类模型训练方法训练出的二分类模型,以及离散型特征的特征值对应的编码值;

将数据样本中的离散型特征的特征值替换为对应的编码值;

在对数据样本中的每个离散型特征都完成特征值替换后,将更新后的数据样本输入至二分类模型进行分类。

第三方面,本发明实施例提供一种二分类模型训练装置,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,装置包括:

次数统计模块,用于统计离散型特征的不同的特征值在训练集的正样本中出现的次数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811052418.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top