[发明专利]用户扩散方法、装置、可读存储介质及电子设备在审
申请号: | 201911002597.2 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110738529A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 黄楷;梁新敏;陈羲 | 申请(专利权)人: | 秒针信息技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 11646 北京超成律师事务所 | 代理人: | 刘静 |
地址: | 100000 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 最近邻 用户行为信息 扩散 行为特征 模型训练 负样本 正样本 预设 可读存储介质 最近邻算法 电子设备 训练样本 预设距离 构建 申请 | ||
本申请提供一种用户扩散方法、装置、可读存储介质及电子设备,通过用户行为信息构建训练样本进行最近邻模型训练,从而根据最近邻模型来进行用户扩散。具体地,所述方法包括:获取多个用户各自的用户行为信息;根据各个用户的用户行为信息确定种子用户和非种子用户;获取预设数量个用户的行为特征作为正样本和获取预设数量个用户的行为特征作为负样本;将正样本和负样本采用最近邻算法进行模型训练,获得最近邻模型;将该待扩散用户的行为特征输入最近邻模型,获得待扩散用户是否为种子用户的扩散结果。由于最近邻模型会根据用户周围预设距离范围内的用户的用户行为信息进行计算,因此,能够提高用户扩散结果的精确性。
技术领域
本申请涉及大数据处理领域,具体而言,涉及一种用户扩散方法、装置、可读存储介质及电子设备。
背景技术
推送广告是一种有效的吸引用户的方法,其中,定向推送广告由于具有转化率高的特点而受到青睐。现有技术中,一种定向推送广告的方法是采用分类算法来实现的,具体地,首先通过特定的标签或者规则确定一批精确的用户,并将这些用户作为种子用户。然后再将每个种子用户的行为特征作为正样本,其他用户的行为特征作为负样本,进行逻辑回归训练得到分类模型,最后再通过得到的分类模型来对待判断用户进行评判。
这种判断方式中,由于分类过程是通过对所有用户的行为特征来进行用户扩散的,因此,这种方式中,判断的结果主要是由所有用户的行为特征来确定的。而对于少部分用户存在的行为,对用户扩散过程中的影响所占的比重不大,因此,得到的用户扩散结果误差很大。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的之一在于提供一种用户扩散方法,所述方法包括:
获取多个用户中每个用户的用户行为信息,所述用户行为信息包括所述用户是否已经购买目标商品的属性信息以及所述用户使用应用软件的操作信息;
根据所述用户行为信息确定种子用户和非种子用户,其中,所述种子用户为已经购买目标商品的用户,所述非种子用户为所述多个用户中除种子用户外的其他用户;
从所有所述种子用户中获取预设数量个用户的行为特征作为正样本,其中,所述行为特征包括用户操作应用软件的多个不同类型操作行为的数据;
从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本;
将所述正样本和所述负样本采用最近邻算法进行模型训练,获得最近邻模型;
将任意一非种子用户作为待扩散用户,将该待扩散用户的行为特征输入所述最近邻模型,获得所述待扩散用户是否为种子用户的扩散结果。
可选地,所述从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本的步骤包括:
采用随机下采样算法从所述非种子用户中获取预设数量个用户的行为特征作为负样本。
可选地,所述将任意一非种子用户作为待扩散用户,将该待扩散用户的行为特征输入所述最近邻模型,获得所述待扩散用户是否为种子用户的扩散结果的步骤包括:
获取待扩散用户的行为特征以及训练用户集中各个用户的行为特征,所述训练用户集为所述正样本以及所述负样本对应的用户的集合;
针对训练用户集中任意一用户,根据该任意一用户的行为特征计算所述待扩散用户与该任意一用户之间的距离;
从所述训练用户集中获取与所述待扩散用户距离最近的预设数量个用户;
判断所述预设数量个用户中,种子用户的数量是否多于非种子用户的数量;
如果种子用户的数量多于非种子用户的数量,则判断该用户为种子用户;
如果种子用户的数量小于或等于非种子用户的数量,则判断该用户为非种子用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于秒针信息技术有限公司,未经秒针信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911002597.2/2.html,转载请声明来源钻瓜专利网。