[发明专利]一种基于用户真实流量数据补全App的Host/Url特征集的方法有效
申请号: | 201610928649.9 | 申请日: | 2016-10-31 |
公开(公告)号: | CN106534081B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 王程浩;杜歆;钱秀莹 | 申请(专利权)人: | 浙江大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08;G06F16/9535 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于用户真实流量数据补全App的Host/Url特征集的方法,该方法首先从初始Host/Url特征集中选取种子。然后在不同用户的流量数据中分别提取出候选特征集,并对这些候选特征集进行关联分析,将提取的频繁项补全到该App的Host/Url特征集中。由于补全特征直接来源于用户的流量数据,本发明提出的方法不仅实现较为便捷,还更能贴近用户的对App的真实使用。 | ||
搜索关键词: | 一种 基于 用户 真实 流量 数据 app host url 征集 方法 | ||
【主权项】:
1.一种基于用户真实流量数据补全App的Host/Url特征集的方法,其特征在于,该方法包括以下步骤:S1:从某个App的初始Host/Url特征集中选取种子特征集,记为{urlseed},具体包括以下步骤:(1)统计该App初始特征集中的每个Host/Url特征出现在不同App的Host/Url特征集中的次数,只出现在该App中则次数为1,出现在2个不同的App中则次数为2,以此类推;(2)种子特征集{urlseed}中的成员,将优先选取所有出现在不同App的特征集中次数只有1次的Host/Url特征;如果在初始特征集中没有出现次数只有1次的Host/Url特征,则选取出现次数最少的几个Host/Url特征,将其作为种子特征集的唯一成员;S2:对种子特征集{urlseed}中的每个成员,都在多用户的真实流量数据中进行特征补全,具体包括以下步骤:(1)从多个用户各自的流量数据中提取种子urli访问时刻前后一段时间范围内的Host/Url特征,构成{urlcand};(2)对来自N个用户的候选特征集{urlcand}k(k=1,2,...,N)进行关联分析,得到若干个频繁项集;(3)将得到的频繁项集中不属于初始Host/Url特征集的新Host/Url特征提取出来,对初始特征集进行补全;S3:从补全后的特征集中选取新的种子,构成新的种子特征集,迭代地进行特征补全,直到不再得到新的种子为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610928649.9/,转载请声明来源钻瓜专利网。