[发明专利]二分类模型训练方法、数据分类方法及对应装置在审
申请号: | 201811052418.1 | 申请日: | 2018-09-10 |
公开(公告)号: | CN109213833A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 赵红军;覃进学;赵神州;王纯斌 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 梁斌 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及机器学习技术领域,提供一种二分类模型训练方法、数据分类方法及对应装置。其中,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,二分类模型训练方法包括:统计离散型特征的不同的特征值在训练集的正样本中出现的次数;基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;将训练样本中的离散型特征的特征值替换为对应的编码值;利用更新后的训练样本训练二分类模型。结构化数据中的离散型特征被上述方法编码后,其特征值被转化为连续值,从而可以被现有的机器学习算法正确地处理,正常地用于训练二分类模型。同时,编码过程简单高效,不会导致维灾难问题。 | ||
搜索关键词: | 离散型 二分类 结构化数据 模型训练 训练样本 对应装置 数据分类 正样本 机器学习技术 机器学习算法 编码过程 训练集 替换 灾难 更新 转化 统计 | ||
【主权项】:
1.一种二分类模型训练方法,其特征在于,训练集中的训练样本均为结构化数据,所述结构化数据中包括至少一个离散型特征,所述方法包括:统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数;基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值;将所述训练样本中的所述离散型特征的特征值替换为对应的所述编码值;在对所述训练样本中的每个离散型特征都完成特征值替换后,利用更新后的所述训练样本训练二分类模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811052418.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种四维五步法降低用户投诉的方法
- 下一篇:一种基于增强现实的导游方法和系统