[发明专利]基于多数据源建模的消息发送方法、装置和电子设备有效

专利信息
申请号: 202110484137.9 申请日: 2021-04-30
公开(公告)号: CN113298121B 公开(公告)日: 2023-08-18
发明(设计)人: 朱婷;张潮华 申请(专利权)人: 上海淇玥信息技术有限公司
主分类号: G06F18/214 分类号: G06F18/214;G06F18/25;G06F21/62;G06F16/953;G06Q10/0635
代理公司: 北京清诚知识产权代理有限公司 11691 代理人: 乔东峰
地址: 201500 上海市崇明*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 多数 建模 消息 发送 方法 装置 电子设备
【说明书】:

发明公开了一种基于多数据源建模的消息发送方法,其特征在于,该方法包括如下步骤:分别获取来自多个不同数据源的设备数据,所述不同数据源的设备数据中特征相互重叠;分别使用来自每一数据源的数据生成对应于每一数据源的样本数据集,并将每一样本数据集划分为对应的训练数据集和测试数据集;针对每一数据源,使用对应于该数据源的训练数据集训练得到对应的子模型,从而得到多个子模型;针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重;根据所述多个子模型的权重,将所述多个子模型的输出值进行加权融合,计算新设备的评分;根据所述评分和预定策略向该新设备发送消息。本发明能够提高设备评分的精度和准确度。

技术领域

本发明涉及计算机信息处理领域,具体而言,涉及一种基于多数据源建模的消息发送方法、装置、电子设备及计算机可读介质。

背景技术

在现有技术中,互联网平台在开展业务时,需要设备打开该平台的网页,或者通过APP访问平台服务。但是,对于从未访问过平台的设备,平台也会通过一些第三方渠道向大量的设备(例如手机、电脑)发送信息,以邀请或吸引更多设备所有人关注平台,使用平台服务,甚至注册成为用户。例如,有些互联网平台会通过社交媒体APP或移动网络的短消息方式将相关信息发送到更广泛的设备上。

但是,由于发送的消息面很广,如果具有不良行为的设备接收到相关信息,其可能对平台造成损害。这是的不良行为是指设备的关联用户可能操作设备而进行的不良行为,例如非法获取数据、网络攻击、薅羊毛、恶意拼团、借贷等等。为此,互联网平台往往需要对需要发送消息的设备是否可能产生不良行为进行预测,以便提前将风险较大的设备剔除。由此,基于机器学习的风险预测模型被广泛应用,但是,由于与设备关联的数据(设备属性、设备关联人属性、设备关联人的行为历史、设备所处的地域,等等)可能来自不同的供应渠道。当其中某个渠道提供的数据质量下降,甚至断供时,将极大的模型的稳定性和准确度。

传统机器学习的模型都是建立在训练数据和测试数据服从相同的数据分布的基础上的。图1是根据现有技术生成分类模型的一个例子。如附图1所述,汇集来自多个数据源的数据,在多个数据源的数据集合的基础上生成训练数据,可以在训练数据上面训练得到一个分类模型用于测试数据。要想实现设备资料的自动化、智能化的审核,先得有大量的样本和标签数据,但往往单一的机构或组织很难具有大量高质量的样本和标签数据,此时就需要多方联合起来共享样本和标签数据。但随着公众和政府对用户数据隐私保护的日益重视,外部资信数据的监管力度不断加强,各方的样本和标签数据无法直接共享,数据效果变差,甚至存在断供风险的可能性,另一方面,为降低查询成本,分级调用而成的数据缺失也给风险模型和准入策略的开发优化带来一定挑战。此外,使用单模型进行计算,也存在不稳定性。因此,有必要提供更有效的风险评估方法,以便在向设备发送消息时更精确地预测和消除风险。

发明内容

本发明的主要目的在于提供一种基于多数据源建模的消息发送方法、装置、电子设备及计算机可读介质,旨在降低因数据断供造成的高偏差和高方差的问题,提高对设备评分的精度和准确度,降低向设备发送消息时的风险。

为了解决上述技术问题,本发明第一方面提出一种基于多数据源建模的消息发送方法,其特征在于,该方法包括如下步骤:分别获取来自多个不同数据源的设备数据,所述不同数据源的设备数据中特征相互重叠;分别使用来自每一数据源的数据生成对应于每一数据源的样本数据集,并将每一样本数据集划分为对应的训练数据集和测试数据集;针对每一数据源,使用对应于该数据源的训练数据集训练得到对应的子模型,从而得到多个子模型;针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重;根据所述多个子模型的权重,将所述多个子模型的输出值进行加权融合,计算新设备的评分;根据所述评分和预定策略向该新设备发送消息。根据本发明的一种优选实施方式,所述针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重,具体为:分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,并作为后续子模型加权融合的权重系数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海淇玥信息技术有限公司,未经上海淇玥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110484137.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top