[发明专利]一种根据统计数据兴趣度确定扩展用户的方法和系统在审

申请号：	201711450729.9	申请日：	2017-12-27
公开（公告）号：	CN108053260A	公开（公告）日：	2018-05-18
发明（设计）人：	罗维	申请（专利权）人：	北京奇虎科技有限公司
主分类号：	G06Q30/02	分类号：	G06Q30/02
代理公司：	北京工信联合知识产权代理有限公司 11266	代理人：	郭一斐;叶万东
地址：	100086 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种根据统计数据兴趣确定扩展用户方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种根据统计数据兴趣度确定扩展用户的方法和系统，通过预先设定的多个训练规则和样本集确定出多个计算规则；根据多个计算规则对所有用户进行计算得到每个用户针对于每个计算规则的关联度分值，再计算每个计算规则的权重值，结合用户对应于每个计算规则的关联度分值和对应的计算规则的权重值，加权计算每个用户初始关联度分值；再结合用户的兴趣度分值，加权计算最终的校正关联度分值，根据校正关联度分值确定设定数量的扩展用户。客户可获得与自己实际需求相匹配的受众人群数据，精准度高，能充分满足客户的不同需求。

技术领域

本发明涉及互联网技术领域，并且更具体地，涉及一种根据统计数据兴趣度确定扩展用户的方法和系统。

背景技术

在互联网广告领域中，对投放广告的商家来说，大范围地向任意人群投放广告，存在成本太高，难以承受的问题，如何从大量的网民中，针对性地选出合适的人群，再根据不同人群的各个属性判断出需要投放的广告人群，是互联网广告市场发展急需解决的问题。

目前，采用人群定向方法向广告主提供比较有价值的人群是互联网广告领域中的一个重要环节，人群定向方法即是通过对用户特征数据的分析，找出与种子人群行为特征相类似的潜在目标人群的共同行为特征，利用机器学习模型，预测目标受众人群数据，帮广告主找到自己想要寻找的目标人群。其中所涉及的种子人群数据的规模最多在几百万量级，而非种子人群数据的规模在几亿量级，两者比例悬殊，在机器学习模型训练时，会使得内存使用上会有较大的浪费，增加了模型训练和预测的内存开销和时间开销。

同时，在一些机器学习工具中，需要对明文特征进行编码，然后才能做模型训练和预测，比如当前有1000万个不同特征，需要对它们用1到1000万进行编码，可能特征“访问过sports.sina.com.cn”被编码为11，而特征“搜索过旅游”被编码为999。

传统方案中，采用单机特征编码，即使用单台机器，对存放特征的文件进行遍历，同时依次编码。该方案存在以下2点不足：

1)如果特征文件特别大，比如有几十亿次的特征，那么方案运行较慢；

2)如果特征文件原本是存放在HDFS，同时要求编码后的特征文件也存放在HDFS上，那么用这种方法需要先从HDFS下载下数据，同时把编码后的特征文件上传到HDFS上，而这些会给开发和维护带来额外的工作。

发明内容

为了解决上述问题，提供一种根据统计数据兴趣度确定扩展用户的方法和系统。

根据本发明的一个方面，提供了一种根据统计数据兴趣度确定扩展用户的方法，所述方法包括：

获取与数据网络内所有用户的网络行为相关联的统计数据，并对所述统计数据进行特征提取以确定所有用户的用户特征；

接收对基础用户进行同类用户扩展的扩展请求，对所述扩展请求进行解析以确定扩展用户的设定数量和多个基础用户；

根据所设定的样本集中的用户特征进行特征分析以确定对每个用户进行关联度计算的计算规则，并基于多个计算规则中的每个计算规则来计算所有用户中每个用户的初始关联度分值；

对所述统计数据进行兴趣度提取以确定每个用户的兴趣度分值，并且基于兴趣度分值对初始关联度分值进行调整以生成校正关联度分值；以及

根据所述校正关联度分值的降序顺序对所有用户进行排序以生成用户列表，将去除了所述多个基础用户的用户列表中校正关联度分值最高的设定数量的用户确定为扩展用户。