[发明专利]一种数据分类方法、装置、电子设备及存储介质在审
申请号: | 201910247972.3 | 申请日: | 2019-03-29 |
公开(公告)号: | CN109948730A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 何博睿 | 申请(专利权)人: | 中诚信征信有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100011 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种数据分类方法、装置、电子设备及存储介质,其中,方法包括:获取待分类数据的信息,将获取的待分类数据的信息,输入分类模型中,得到各个待分类数据为第一类数据的概率,其中,第一类数据为:与正样本对应的数据;根据得到的概率,对各所述待分类数据分类。应用本发明实施例提供的方案在进行数据分类时,在所使用的分类模型的训练过程中,无需构造贝叶斯分类模型,也无需用贝叶斯分类器来进行数据分析,而是用各个样本对第一预设模型进行迭代训练得到可靠负样本分析模型,用可靠负样本分析模型分析各个未标注样本,根据分析结果确定出分类模型的,实现了对金融领分类模型的训练,从而实现了对金融领域的数据的分类。 | ||
搜索关键词: | 待分类数据 分类模型 数据分类 存储介质 电子设备 分析模型 负样本 样本 贝叶斯分类器 迭代训练 金融领域 输入分类 数据分析 训练过程 贝叶斯 正样本 分类 概率 预设 标注 金融 应用 分析 | ||
【主权项】:
1.一种数据分类方法,其特征在于,所述方法包括:获取待分类数据的信息;将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;根据得到的概率,对各所述待分类数据分类;其中,所述分类模型是按以下步骤训练得到的:S210:获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P‑S,并将所述M+S中的各个样本标注负的样本标识,将所述P‑S中的各个样本标注正的样本标识;S220:根据所述M+S中各个样本的样本标识、所述M+S中各个样本的信息、所述P‑S中各个样本的样本标识、所述P‑S中各个样本的信息,训练第一预设模型,得到第一模型;S230:用所述第一模型预测所述M+S中各个样本为正样本的概率,并根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识;S240:根据所述M+S中各个样本重新标注的样本标识、所述M+S中被重新标注样本标识的样本的信息、所述P‑S中各个样本的样本标识、所述P‑S中各个样本的信息,重新训练所述第一预设模型,得到第二模型;S250:判断得到的所述第二模型相对于所述第一模型是否有提升;S260:如果没有提升,则将得到的所述第二模型确定为所述可靠负样本分析模型;S270:如果有提升,则将所述第一模型重置为所述第二模型,再执行步骤S230~S250;S280:用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,并根据所述可靠负样本、所述P中的各个样本确定分类模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中诚信征信有限公司,未经中诚信征信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910247972.3/,转载请声明来源钻瓜专利网。