[发明专利]一种数据分类方法、装置、电子设备及存储介质在审
申请号: | 201910247972.3 | 申请日: | 2019-03-29 |
公开(公告)号: | CN109948730A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 何博睿 | 申请(专利权)人: | 中诚信征信有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100011 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 待分类数据 分类模型 数据分类 存储介质 电子设备 分析模型 负样本 样本 贝叶斯分类器 迭代训练 金融领域 输入分类 数据分析 训练过程 贝叶斯 正样本 分类 概率 预设 标注 金融 应用 分析 | ||
本发明实施例提供了一种数据分类方法、装置、电子设备及存储介质,其中,方法包括:获取待分类数据的信息,将获取的待分类数据的信息,输入分类模型中,得到各个待分类数据为第一类数据的概率,其中,第一类数据为:与正样本对应的数据;根据得到的概率,对各所述待分类数据分类。应用本发明实施例提供的方案在进行数据分类时,在所使用的分类模型的训练过程中,无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,而是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型的,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据分类方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的快速发展,使用分类模型来对数据进行分类被越来越广泛地使用,其中,分类模型通常由已知样本训练得到。在模型训练过程中,经常会遇到以下情况:用于训练模型的样本中只标注出正样本,而未标注出其他样本的正负。例如,在金融领域中,经常会碰到只知道哪些用户是已经违约的,但是对于剩下的用户不清楚还有谁是可能违约的用户。
针对以上情况,现有技术通常使用正样本和无标注样本学习(PositiveUnlabeled learning,简称PU-learning)方法来训练分类模型。使用PU-learning训练模型的过程为:根据正样本集P与未标注样本集M构造贝叶斯分类模型,得到贝叶斯分类器,使用贝叶斯分类器对对未标注样本集M中的每个样本进行分析得到可靠负样本集,根据正样本集、可靠负样本集来确定分类模型。
使用现有的PU-learning方法在确定分类模型时,由于是先构造贝叶斯分类模型,得到贝叶斯分类器,用贝叶斯分类器来确定可靠负样本集的,贝叶斯分类器通常只可以分析概率连续变化的样本,而金融领域中的样本概率通常并不是连续变化的,例如,用户是否是违约用户的样本概率是二分类型的,也就是离散型的,因此,贝叶斯分类器通常无法对金融领域的数据进行分类分析,所以传统的PU-learning方法并不适用于训练金融领域的分类建模,从而使得无法对金融领域的数据进行分类。
发明内容
本发明实施例的目的在于提供一种数据分类方法、装置、电子设备及存储介质,以实现对金融领域数据的分类。具体技术方案如下:
第一方面,本发明实施例提供了一种数据分类方法,所述方法包括:
获取待分类数据的信息;
将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;
根据得到的概率,对各所述待分类数据分类;
其中,所述分类模型是按以下步骤训练得到的:
S210:获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P-S,并将所述M+S中的各个样本标注负的样本标识,将所述P-S中的各个样本标注正的样本标识;
S220:根据所述M+S中各个样本的样本标识、所述M+S中各个样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,训练第一预设模型,得到第一模型;
S230:用所述第一模型预测所述M+S中各个样本为正样本的概率,并根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识;
S240:根据所述M+S中各个样本重新标注的样本标识、所述M+S中被重新标注样本标识的样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,重新训练所述第一预设模型,得到第二模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中诚信征信有限公司,未经中诚信征信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910247972.3/2.html,转载请声明来源钻瓜专利网。