[发明专利]筛选方法和筛选系统在审
申请号: | 201910238956.8 | 申请日: | 2019-03-27 |
公开(公告)号: | CN111753992A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 鞠明兴 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 蔡纯;刘静 |
地址: | 100176 北京市大兴区经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 筛选 方法 系统 | ||
1.一种筛选方法,其特征在于,包括:
从存储系统获取多个目标物品的历史流量数据,并从中提取多个所述目标物品的目标变量的历史值;
根据所述目标变量的历史值生成所述目标物品对应的预测选中概率;
将所述预测选中概率和所述目标变量的历史值输入到建立好的期望值模型中,对所述目标物品进行筛选分析,生成多个所述目标物品的目标变量的期望值;以及
筛选出所述目标变量的期望值大于预设阈值的所述目标物品,将其对应的标识信息存储至数据库中。
2.根据权利要求1所述的筛选方法,其特征在于,所述历史流量数据包括目标物品曝光量,目标物品选中量和目标物品的曝光渠道数据。
3.根据权利要求2所述的筛选方法,其特征在于,所述目标物品的目标变量为目标物品的千次曝光转化率,所述千次曝光转化率为所述目标物品选中量与所述目标物品曝光量的比值的一千倍。
4.根据权利要求1所述的筛选方法,其特征在于,还包括:从所述历史流量数据中提取出所述目标物品的多个属性数据,根据所述属性数据将多个所述目标商品分类。
5.根据权利要求4所述的筛选方法,其特征在于,采用基于所述目标物品的目标变量的离散变换的方法,对所述目标物品的所述属性数据进行连续化处理,得到所述预测选中概率,所述目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。
6.根据权利要求5所述的筛选方法,其特征在于,将所述目标物品在指定的所述属性数据的分类下对应的所述目标变量的历史值为正样本的数量与所述目标物品曝光量的比值作为所述预测选中概率。
7.根据权利要求6所述的筛选方法,其特征在于,所述目标变量的历史值大于零的记为正样本,否则记为负样本。
8.根据权利要求6所述的筛选方法,其特征在于,所述属性数据包括物品品类和曝光渠道。
9.根据权利要求8所述的筛选方法,其特征在于,还包括:
计算所述目标物品在不同的所述曝光渠道上的所述预测选中概率和所述目标变量的期望值;
根据所述目标变量的期望值的降序顺序在不同的所述曝光渠道上设置梯度减少的所述目标物品曝光量。
10.根据权利要求5所述的筛选方法,其特征在于,采用基于所述目标物品的目标变量的离散变换的方法,对所述目标物品的所述属性数据进行连续化处理包括:
将属性数据的具体值和对应的目标物品曝光量组成数对,按照所述目标物品曝光量降序排列;
获取所述目标物品在每个分类下的所述目标变量的历史值并统计所述目标变量的历史值为正样本的数量;
将所述属性数据对应的数对列中的部分数对整合成一个数对;
针对处理后的数对列,计算每个属性数据的具体值对应的所述目标变量的历史值的平均值。
11.根据权利要求1所述的筛选方法,其特征在于,所述期望值模型的建立过程包括:
加载数据源,获得目标物品的历史流量数据和预测选中概率;
根据数据库时间分区将数据源分为训练数据集和测试数据集,将训练数据集按照7:3划分为训练集和验证集;
采用随机森林模型,根据验证集上模型的表现进行交叉验证调节模型参数;
序列化保存模型文件;
根据所述预测选中概率和某一时间粒度下的目标变量的历史值生成所述目标变量的期望值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司,未经北京沃东天骏信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910238956.8/1.html,转载请声明来源钻瓜专利网。