[发明专利]基于集的相似性的可扩展用户聚类无效
申请号: | 200680038100.7 | 申请日: | 2006-08-15 |
公开(公告)号: | CN101535944A | 公开(公告)日: | 2009-09-16 |
发明(设计)人: | 马尤尔·达塔尔;阿舒托什·加尔格 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00;G06F17/00;G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 郑 立;林月俊 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相似性 扩展 用户 | ||
1.一种方法,包括:
使用k个元素的已排序的集来确定数据处理系统的用户,其中k是 大于1的整数,其中所述的k个元素的每一个对应于在兴趣集之中的元 素,在所述兴趣集之中的每一个元素代表所述用户已经通过其使用所 述数据处理系统的行为表达了兴趣的项目。
2.如权利要求1所述的方法,还包括:
在为所述用户执行协同过滤时,使用所述k个元素的已排序的集来 确定所述用户。
3.如权利要求2所述的方法,其中:
所述协同过滤包括:将项目推荐给所述用户,或为所述用户将项 目进行排名。
4.如权利要求1所述的方法,还包括:
将表达用户兴趣的行为记录在日志中;并且
使用所述日志来为所述用户生成所述兴趣集。
5.如权利要求1所述的方法,其中:
所述数据处理系统包括网站;并且
所述用户的所述兴趣集包括的表示有:所述用户已经在网页中点 击的一个或多个项目、所述用户已经从在线零售商购买的项目、或所 述用户已经添加到购物车中的项目。
6.一种编码在信息载体上的计算机程序产品,包括可运行的指令 以使得数据处理装置来:
为多个用户之中的每一个用户获得各自的兴趣集,每个兴趣集代 表所述各个用户已经通过与数据处理系统进行交互而表达了兴趣的项 目;
对所述多个用户之中的每一个用户,确定所述各自兴趣集的k个散 列值,其中所述第i个散列值是在对应的第i个散列函数之下的所述各自 兴趣集之中的最小值,其中i是在1和k之间的整数,并且其中k是大于或 等于1的整数;并且
将所述多个用户之中的每一个用户分配到为所述各个用户建立的 所述各个k个集群之中的每一个集群,所述第i个集群由所述第i个散列 值所代表,其中所述将多个用户之中的每一个用户分配到k个集群的完 成不考虑任何其它用户到k个集群的分配。
7.如权利要求6所述的产品,还包括可运行的指令以使得数据处 理装置来:
将表达用户兴趣的行为记录在日志中;并且
使用所述日志来为所述多个用户生成所述的兴趣集。
8.如权利要求6所述的产品,还包括可运行的指令以使得数据处 理装置来:
为所述多个用户的第一用户获得已改变的兴趣集;
使用所述已改变的兴趣集,为所述第一用户确定k个散列值;并且
将所述第一用户仅分配到由通过使用所述已改变的兴趣集所确定 的k个散列值所代表的各个k个集群之中的每一个集群,而不改变任何 所述其它的多个用户到集群的分配。
9.一种编码在信息载体上的计算机程序产品,包括可运行的指令 以使得数据处理装置来:
为用户获得兴趣集,所述兴趣集代表所述用户已经通过与数据处 理系统进行交互而表达了兴趣的项目;
确定所述兴趣集的k个散列值,其中所述第i个散列值是在对应的 第i个散列函数之下的所述兴趣集之中的最小值,其中i是在1和k之间的 整数,并且其中k是大于或等于1的整数;并且
将所述用户分配到k个集群之中的每一个集群,所述第i个集群由 所述第i个散列值所代表。
10.如权利要求9所述的产品,其中:
所述兴趣集有m个元素;
所述第i个散列值是单向散列函数的m个应用的最小值,每一个应 用将第i个种子值和所述兴趣集的所述m个元素中的对应元素进行散 列。
11.如权利要求9所述的产品,还包括可运行的指令以使得数据处 理装置来:
使用所述k个用户集群来为所述用户执行协同过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680038100.7/1.html,转载请声明来源钻瓜专利网。