[发明专利]基于多元化策略的大规模社会网络用户抽样的方法及装置有效
申请号: | 201810284916.2 | 申请日: | 2018-04-02 |
公开(公告)号: | CN108596444B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 桑维;唐杰;刘德兵 | 申请(专利权)人: | 清华大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多元化 策略 大规模 社会 网络 用户 抽样 方法 装置 | ||
1.一种基于多元化策略的大规模社会网络数据处理方法,大规模社会网络中的用户子集应用于社交平台推荐信息或社交网络推荐好友,其特征在于,所述方法包括以下步骤:
通过效用函数从大规模社会网络数据中抽取多名用户代表;
根据所述多名用户代表的每个用户代表的属性将所述多名用户代表分为多个属性组,以得到属性组代表程度的模型;
获取所述效用函数的最大值,以从所述多个属性组中选出代表用户;以及
根据所述代表用户利用多元化策略抽样选出代表度最差组,以在所述大规模社会网络数据中去除所述代表度最差组
,其中,所述效用函数为:
其中,G=(V,E)表示社交网络,其中V代表包含|V|=N个用户的点集,表示含有|E|=M条用户关系的边集,X∈Rn×d为属性矩阵,T为用户子集,λl是一个与属性组(Vl,ajl)大小相关的正整数,λl缺省取值为|Vl|-1,P(T,l)为用户子集T对于属性组(Vl,ajl)的代表度,Vl为属性l的所有用户集合,ajl为一条属性;所述属性组代表程度的模型
其中,R(T,vi,ajl)为在某个具体属性ajl上用户子集T对用户vi的代表程度,取值范围为[0,1],缺省定义当T中节点有一条边连接到vi,则R(T,vi,ajl)取值为1,否则取值为0。
2.根据权利要求1所述的基于多元化策略的大规模社会网络数据处理方法,其特征在于,如果1≤l≤t,且P(T,l)0,则所有属性组均被代表,对每个属性组有相对平衡的P(T,l),以避免属性组被过大或者过小代表。
3.一种基于多元化策略的大规模社会网络数据处理装置,大规模社会网络中的用户子集应用于社交平台推荐信息或社交网络推荐好友,其特征在于,所述装置包括:
抽取模块,用于通过效用函数从大规模社会网络数据中抽取多名用户代表;
分组模块,用于根据所述多名用户代表的每个用户代表的属性将所述多名用户代表分为多个属性组,以得到属性组代表程度的模型;
获取模块,用于获取所述效用函数的最大值,以从所述多个属性组中选出代表用户;以及
处理模块,用于根据所述代表用户利用多元化策略抽样选出代表度最差组,以在所述大规模社会网络数据中去除所述代表度最差组
,其中,所述效用函数为:
其中,G=(V,E)表示社交网络,其中V代表包含|V|=N个用户的点集,表示含有|E|=M条用户关系的边集,X∈Rn×d为属性矩阵,T为用户子集,λl是一个与属性组(Vl,ajl)大小相关的正整数,λl缺省取值为|Vl|-1,P(T,l)为用户子集T对于属性组(Vl,ajl)的代表度,Vl为属性l的所有用户集合,ajl为一条属性;所述属性组代表程度的模型
其中,R(T,vi,ajl)为在某个具体属性ajl上用户子集T对用户vi的代表程度,取值范围为[0,1],缺省定义当T中节点有一条边连接到vi,则R(T,vi,ajl)取值为1,否则取值为0。
4.根据权利要求3所述的基于多元化策略的大规模社会网络数据处理装置,其特征在于,如果1≤l≤t,且P(T,l)0,则所有属性组均被代表,对每个属性组有相对平衡的P(T,l),以避免属性组被过大或者过小代表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810284916.2/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理