[发明专利]基于抽样查找和索引查找的人群画像方法及系统有效
申请号: | 201710711123.X | 申请日: | 2017-08-18 |
公开(公告)号: | CN107480271B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 汤奇峰;宁绍军 | 申请(专利权)人: | 晶赞广告(上海)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
地址: | 200072 上海市闸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 抽样 查找 索引 人群 画像 方法 系统 | ||
本发明提供了一种基于抽样查找和索引查找的人群画像方法及系统,该方法首先设定人群画像条件,并对全量数据建立索引,然后进行抽样查找,计算抽样查找计算的误差率,并对误差率进行判断,当误差率小于等于最大允许误差时,抽样数据为计算人群画像的输入数据,当误差率大于最大允许误差时,采用索引查找计算的方法得到用户数据的唯一标识符,然后得到这些标识符对应的个体画像,将个体画像作为计算人群画像的输入数据,因此,本发明在计算人群画像时误差小,并且在用户记录条数上亿级别的情况下,具有秒级响应能力。
技术领域
本发明属于信息技术技术领域,具体涉及一种基于抽样查找和索引查找的人群画像方法及系统。
背景技术
人群画像是为了让团队成员在产品设计的过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上进行产品设计。简单讲就是通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,抽象模拟出的一种调查分析报告,是用户信息标签。譬如在百度指数输入产品关键词,就会得出搜索该产品消费人群的行为喜好。人群画像能够对产品运营、客户维系起到精准用户群体以及获取用户需求反馈信息作用。
在数据收集时,通常是将海量的用户记录进行抽样,然后对抽样数据进行人群画像计算。但是抽样计算产生的结果产生的误差率有时会大于最大允许误差,即抽样计算结果产生的误差大于业务可以接受的值,不能满足业务需求。因此,需要找到一种合理的人群画像方法使得计算结果的误差率不超过允许误差,并且计算时相应迅速。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种在用户记录条数上亿级别的情况下,响应迅速且误差小的基于抽样查找和索引查找的人群画像方法及系统。
本发明提供了一种基于抽样查找和索引查找的人群画像方法,其特征在于,包括以下步骤:步骤1,设定人群画像条件,并对全量数据建立索引;
步骤2,对全量数据进行抽样,产生抽样数据;
步骤3,根据所述人群画像条件对所述抽样数据进行人群规划计算,并计算人群规划计算结果的误差率;
步骤4,将人群规划计算结果的误差率与设定的最大允许误差进行比较,如果误差率小于等于最大允许误差,则将抽样数据作为人群画像的输入数据,执行步骤7,如果误差率大于最大允许误差,则执行步骤5;
步骤5,在全量数据中通过索引查找满足所述人群画像条件的受众的唯一标识符;
步骤6,根据查找到的受众的唯一标识符得到每个受众对应的个体画像,将个体画像作为人群画像的输入数据;
步骤7,根据人群画像的输入数据计算目标人群的人群画像。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,定期对所述全量数据进行更新,根据更新的全量数据更新抽样数据,并对更新的全量数据的索引进行更新。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,人群规划计算结果的误差率采用以下方法得到:
d为误差率,m为从抽样数据中抽取的满足人群画像条件的样本数据,s为全量数据。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,每个受众的唯一标识符采用murmur哈希算法对整条记录进行哈希计算得到。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,对全量数据建立索引时,采用混合索引方式。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,混合索引为:b-tree索引加range索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶赞广告(上海)有限公司,未经晶赞广告(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710711123.X/2.html,转载请声明来源钻瓜专利网。