[发明专利]一种群画像方法、群画像装置及服务器有效
申请号: | 201710296753.5 | 申请日: | 2017-04-28 |
公开(公告)号: | CN108804454B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 罗奎 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/735 | 分类号: | G06F16/735;H04N21/25 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 种群 画像 方法 装置 服务器 | ||
本申请提供了一种群画像方法、群画像装置及服务器,用于提高给定群的群画像的准确性。本申请实施例方法包括:获取给定群的用户特征信息及对比数据,对比数据为非给定群的用户特征信息,给定群的用户特征信息包括给定群特征;根据频繁模式算法对给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;根据至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项;根据对比数据及至少一个频繁项集计算出每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息;根据置信度信息及支持度信息得到给定群的群画像。
技术领域
本申请涉及计算机领域,尤其涉及一种群画像方法、群画像装置及服务器。
背景技术
群画像方法是指对给定群的关键特征的提取,关键特征描述了这个给定群有别于其他群的特质。例如,在视频内容分发网络(Content Delivery Network,CDN)内容预推场景下,希望能够分析出每个CDN小区覆盖的用户群的观看特点,找出每一个用户群的关键特征,根据关键特征了解到每一个用户群的观看视频的偏好,做出个性化的内容预推,从而提高预推命中率。
目前的一种群画像方法是,基于隐含狄利克雷分布(Latent DirichletAllocation,LDA)算法完成群画像的挖掘,具体为:输入全网用户及对应特征,设置主题个数K,利用LDA算法,得到各主题的排序靠前的TopN特征以及每个用户属于某主题的概率。对于每个用户取概率最大的主题作为所属主题。对于给定群,可以统计群中每个用户的主题分布,选取用户比例最大的主题作为给定群的主题,则对应主题画像即给定群的群画像。
但是,利用LDA算法,不是直接针对给定群做分析,而是预先对给定群的超集(即全网用户)进行主题划分,然后在根据给定群用户所属主题分布来确认给定群画像。假如,全网用户的主题包括第一类、第二类和第三类,第一类主题的Top3特征为a、b和c,第二类主题的Top3特征为d、e和f,第三类主题的Top3特征为h,g和i,给定群的用户比例最大的主题是第三类,但是给定群的Top3特征实际是a,d和h。因此在给定群和主题重合度较低时,导致群画像结果不准确。
发明内容
本申请提供了一种群画像方法、群画像装置及服务器,通过频繁模式算法计算得到给定群的关联推导式,并在计算关联推导式置信度时添加对比数据,从而提高群画像结果的准确性。
本申请的第一方面提供一种群画像方法,包括:
获取给定群的用户特征信息及对比数据,所述对比数据为非给定群的用户特征信息,所述给定群的用户特征信息包括给定群特征;
根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;
根据所述至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,所述后置项为所述关联推导式对应的频繁项集中的给定群特征,所述前置项为所述关联推导式对应的频繁项集中的特征集;
根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数;
根据所述置信度信息及所述支持度信息得到所述给定群的群画像,所述给定群的群画像为一个关联推导式的前置项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710296753.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视音频识别方法及装置
- 下一篇:一种数据排序方法及装置