[发明专利]筛选方法和筛选系统在审
申请号: | 201910238956.8 | 申请日: | 2019-03-27 |
公开(公告)号: | CN111753992A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 鞠明兴 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 蔡纯;刘静 |
地址: | 100176 北京市大兴区经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 筛选 方法 系统 | ||
本发明实施例提供一种筛选方法和筛选系统,该筛选方法包括:从存储系统获取多个目标物品的历史流量数据,并从中提取多个所述目标物品的目标变量的历史值;根据所述目标变量的历史值生成所述目标物品对应的预测选中概率;将所述预测选中概率和所述目标变量的历史值输入到建立好的期望值模型中,对所述目标物品进行筛选分析,生成多个所述目标物品的目标变量的期望值;以及筛选出所述目标变量的期望值大于预设阈值的所述目标物品,将其对应的标识信息存储至数据库中。根据目标物品的预测选中概率,采用期望值模型得出目标变量的期望值,根据目标变量期望值进行目标物品的筛选,能快速准确地筛选出需要的目标物品,筛选质量较好。
技术领域
本发明涉及计算机技术领域,具体涉及一种筛选方法和筛选系统。
背景技术
目前关于目标物品的筛选,会应用到多种机器学习模型,如逻辑回归,随机森林,GBDT(Gradient Boosting Decision Tree,构造多棵决策回归树预测分类)等。在模型框架设计上,基于目标变量的定义不同,所采用的机器学习算法和模型也不相同。
目前主要采用两种机器学习方式,一种是基于连续变量的回归方式,另一种是基于是否成交的分类预测方式。基于回归方法进行学习的模型稳定性较差,且针对海量目标物品的目标变量做回归预测,模型准确率提升较难;基于分类方法进行学习主要是对目标物品成交可能性的预测,并不能直接给出目标物品的目标变量的预测结果,而且没有考虑分类变量对目标变量的影响。
因此,发明人认为,上述的目标物品的筛选方法有很大的局限性,利用现有机器学习模型难以准确、快速地计算出与目标物品选择有关的目标变量的预测结果,存在难以挑选出合适的目标物品的问题。
发明内容
有鉴于此,本发明实施例提供一种筛选方法和筛选系统,根据目标物品的目标变量的历史值计算目标物品的预测选中概率,再基于预测选中概率采用期望值模型计算目标变量的期望值,根据目标变量的期望值进行目标物品的筛选和存储,可以快速筛选出需要的合格的目标物品。
根据本发明第一方面,提供一种筛选方法,包括:
从存储系统获取多个目标物品的历史流量数据,并从中提取多个所述目标物品的目标变量的历史值;
根据所述目标变量的历史值生成所述目标物品对应的预测选中概率;
将所述预测选中概率和所述目标变量的历史值输入到建立好的期望值模型中,对所述目标物品进行筛选分析,生成多个所述目标物品的目标变量的期望值;以及
筛选出所述目标变量的期望值大于预设阈值的所述目标物品,将其对应的标识信息存储至数据库中。
优选地,所述历史流量数据包括目标物品曝光量,目标物品选中量和目标物品的曝光渠道数据。
优选地,所述目标物品的目标变量为目标物品的千次曝光转化率,所述千次曝光转化率为所述目标物品选中量与所述目标物品曝光量的比值的一千倍。
优选地,所述筛选方法还包括:从所述历史流量数据中提取出所述目标物品的多个属性数据,根据所述属性数据将多个所述目标商品分类。
优选地,采用基于所述目标物品的目标变量的离散变换的方法,对所述目标物品的所述属性数据进行连续化处理,得到所述预测选中概率,所述目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。
优选地,将所述目标物品在指定的所述属性数据的分类下对应的所述目标变量的历史值为正样本的数量与所述目标物品曝光量的比值作为所述预测选中概率。
优选地,所述目标变量的历史值大于零的记为正样本,否则记为负样本。
优选地,所述属性数据包括物品品类和曝光渠道。
优选地,所述筛选方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司,未经北京沃东天骏信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910238956.8/2.html,转载请声明来源钻瓜专利网。