[发明专利]一种确定用户分组的方法、装置及系统在审
申请号: | 201710569342.9 | 申请日: | 2017-07-13 |
公开(公告)号: | CN109255640A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 柯文炜 | 申请(专利权)人: | 阿里健康信息技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F9/50;G06F9/455 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 百慕大*** | 国省代码: | 百慕大群岛;BM |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行为数据 装置及系统 用户分组 集合 编码结果 单个用户 计算效率 系统实施 相似用户 用户数据 维度 申请 分组 | ||
1.一种确定用户分组的方法,其特征在于,所述方法包括:
获取多个用户的行为数据;
将所述多个用户的行为数据划分为若干个以单个用户为维度的行为数据集合;
对所述若干个行为数据集合分别进行编码;
根据编码得到的编码结果对所述多个用户进行分组。
2.根据权利要求1所述的方法,其特征在于,所述对所述若干个行为数据集合分别进行编码包括:
将所述若干个以单个用户为维度的行为数据集合分配至多个计算节点;
对所述计算节点内的行为数据集合进行编码。
3.根据权利要求1所述的方法,其特征在于,所述行为数据包括所述用户在多个数据源上产生的多个行为记录。
4.根据权利要求3所述的方法,其特征在于,所述将所述多个用户的行为数据划分为若干个以单个用户为维度的行为数据集合包括:
确定用户在所述多个数据源中共享的用户标识信息;
将所述多个数据源中与所述用户标识信息相关联的行为记录合并成所述用户的行为数据集合。
5.根据权利要求1所述的方法,其特征在于,所述根据编码得到的编码结果对所述多个用户进行分组包括:
将根据编码得到的编码结果按照数值大小进行排序;
将所述排序中第一预设数量的连续相邻编码结果所对应的用户分配至同一个分组中。
6.根据权利要求1所述的方法,其特征在于,所述根据编码得到的编码结果对所述多个用户进行分组包括:
获取根据编码得到的编码结果;
从所述编码结果中截取部分序列,并将所述部分序列按照数值大小进行排序;
将所述排序中第二预设数量的连续相邻部分序列所对应的用户分配至同一个分组中。
7.根据权利要求1所述的方法,其特征在于,所述对所述若干个行为数据集合分别进行编码包括:
从所述行为数据集合中提取出用户属性及用户属性值;
对所述用户属性及用户属性值进行预处理;
将预处理后的用户属性及用户属性值转换成键值对的数据形式。
8.根据权利要求7所述的方法,其特征在于,所述对所述用户属性及用户属性值进行预处理包括:
计算所述用户属性的区分度;
当所述区分度小于第一阈值时,从所述行为数据集合中清除所述用户属性及对应的用户属性值。
9.根据权利要求1所述的方法,其特征在于,在所述根据编码得到的编码结果对所述多个用户进行分组之后,所述方法还包括:
根据编码结果确定分组内的相似用户。
10.根据权利要求9所述的方法,其特征在于,所述根据编码结果确定分组内的相似用户包括:
将所述分组内用户的编码结果按照数值大小进行排序;
将所述排序中第三预设数量的连续相邻编码结果所对应的用户作为相似用户。
11.根据权利要求9所述的方法,其特征在于,所述根据编码结果确定分组内的相似用户包括:
计算分组内两两用户所对应的编码结果的相似度;
将所述相似度大于第二阈值的两个用户作为相似用户。
12.根据权利要求11所述的方法,其特征在于,若所述分组中的用户数量超出第三阈值,则所述计算分组内两两用户所对应的编码结果的相似度包括:
计算所述分组内第三阈值个数的用户两两之间的编码结果的相似度;
获取用户标识信息及随机数,并将所述随机数添加至所述用户标识信息中;
对添加所述随机数之后的用户标识信息进行编码,生成预设位数的编码;
将所述编码按照数值大小排序,并计算排序中前第三阈值个数的用户两两之间的编码结果的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里健康信息技术有限公司,未经阿里健康信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710569342.9/1.html,转载请声明来源钻瓜专利网。