[发明专利]数据处理方法、装置、设备及可读存储介质有效
申请号: | 201910004439.4 | 申请日: | 2019-01-03 |
公开(公告)号: | CN110020022B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 赵耀;危彬;顾剑波 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06N3/08 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 可读 存储 介质 | ||
本说明书实施例提供了一种数据处理方法,获取多个目标对象的特征数据作为训练样本,从而基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,神经网络模型的输出对应于两个以上类簇,聚类模型用于输出目标对象属于每个类簇的概率。本方法通过上述两种损失函数来控制对多个目标对象进行聚类的优化过程,从而使得聚类模型的输出直接对应目标对象的聚类结果,避免直接定义距离函数,有利于提高对目标对象的聚类效率且得到较好的聚类效果。
技术领域
本说明书实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及可读存储介质。
背景技术
随着信息技术的发展,通过数据挖掘从海量数据中找出有意义的模式或规则,为信息管理、查询优化、商业决策和过程控制等提供辅助支持,成为利用数据的重要方式。聚类分析是数据挖掘的重要手段之一,是按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而不同类别间的数据相似度较小,以便于后续可以根据数据类别对数据进行进一步分析。因此,为了提高数据挖掘质量和效率,需要提供聚类效率高且效果较好的方案。
发明内容
本说明书实施例提供了一种数据处理方法、装置、设备及可读存储介质。
第一方面,本说明书实施例提供了一种数据处理方法,包括:获取训练样本,所述训练样本包括多个目标对象的特征数据;基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标对象属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。
第二方面,本说明书实施例提供了一种数据处理方法,包括:获取训练样本,所述训练样本包括多个目标用户的特征数据;基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标用户属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标用户对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标用户在所述两个以上类簇中的分布满足预设条件。
第三方面,本说明书实施例提供了一种数据处理装置,包括:对象样本获取模块,用于获取训练样本,所述训练样本包括多个目标对象的特征数据;模型训练模块,用于基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标对象属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。
第四方面,本说明书实施例提供了一种数据处理装置,包括:用户样本获取模块,用于获取训练样本,所述训练样本包括多个目标用户的特征数据;模型训练模块,基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标用户属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标用户对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标用户在所述两个以上类簇中的分布满足预设条件。
第五方面,本说明书实施例提供了一种计算机设备,包括:存储器、一个或多个处理器;及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面提供的数据处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910004439.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于可视化的数据流处理方法
- 下一篇:基于融合结构特征的属性网络表示学习方法