[发明专利]基于CDR话单的用户群体划分方法和系统有效
申请号: | 201510020953.9 | 申请日: | 2015-01-15 |
公开(公告)号: | CN104573034B | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 罗云彬;李浩 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 白莹,栗若木 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 cdr 用户 群体 划分 方法 系统 | ||
技术领域
本发明涉及通信领域,尤其涉及一种基于CDR话单的用户群体划分方法和系统。
背景技术
随着大数据和移动互联网的应用和发展,基于用户行为的分析应用研究也从单纯的理论研究逐步到具体实践的应用。尤其是随着Hadoop、MapReduce等大数据技术的日渐成熟,基于大数据对用户数据进行分析挖掘,获取用户行为的实践应用逐渐增多。
Hadoop是最近几年大数据应用当中比较热门的,用于解决存储海量数据的分布式存储系统。其两大核心功能就是HDFS(Hadoop分布式文件系统)和MapReduce。其中,HDFS是Hadoop系统的文件管理工具,与传统的数据库存储方式不同,其数据以Block(块)的方式存储在各个DataNode(数据节点)上,并通过HDFS进行统一管理;MapReduce是Hadoop系统的任务执行工具,其主要的思想是通过Map(映射)过程将job(任务)分散到各个DataNode节点上进行处理,Map阶段执行完成后,通过Reduce(规约)将中间结果进行Merge(合并),并输出最终的处理结果。
用户数据挖掘比较常见的是基于用户的上网记录详单数据,对用户行为进行预测,从而实现定向的商业行为和安全管理。例如,基于用户的上网记录,可以对用户最近的网络行为进行分析,包括上网流量、喜欢网站等等,对于运营商可以根据喜好网站实现定向推送,根据流量变化及时提醒用户更新套餐;对于安全部门,通过获取网站定向访问量,排查黄色、反动网站等等。
以上应用和分析针对的是单个用户的行为特性,或者说是用户与物品(除用户外其他数据包括网站、流量等等)的关系特征进行数据挖掘。大数据应用和挖掘的另一个重要方面是关心用户与用户之间的关系,也就是用户群体划分。目前用户群体划分的主要方法包括两类:
一类是基于“标签”或类似的分类标识进行划分,比如将关注了相同“标签”(如电影等)的用户划分为一个群体;
另一类是基于社交网站中的用户关系进行划分,比如将社交网站中关注度高(比如好友数高)的用户作为主用户,将和主用户为好友关系的用户都作为一个群体。
现有的群体划分的方法都是比较粗略的群体划分。基于标签的用户群体划分的方法中,都是根据特定需求或偏好来划分用户,其本身并不能代表同一标签下的用户彼此有社会交往,划分为一个用户群体并不合适。而基于社交网站中的用户关系进行划分的方法中,没有合理的衡量方法体现用户-用户之间关系程度,比如一个主用户的某个好友可能与该主用户的其它好友之间都没有关联,并不应该属于同一个用户群体。
发明内容
本发明要解决的技术问题是如何更加精确的划分用户群体。
为了解决上述问题,本发明提供了一种基于呼叫详细揭露CDR话单的用户群体划分方法,包括:
S101、周期性获取预定时间段中的CDR话单,根据所获取的CDR话单中的记录提取出每个用户的联络数据,包括:该用户作为主叫/被叫用户时的通话次数、通话对象、通话时长,以及该用户收、发短信的次数及对象;
S102、分别根据各用户的联络数据,计算该用户和该用户的各相关用户之间的热度值,所述相关用户为与该用户存在通话或短信的用户;
S103、根据所述热度值确定热点中心用户;
S104、分别在各热点中心用户的相关用户中剔除仅与该热点中心用户存在通话或短信的用户;将各热点中心用户及其剔除后剩余的相关用户各自划分为一个用户群体。
可选地,用户m与用户n之间的所述热度值H(m-n)为:
其中,ps(m-n)指用户m作为主叫呼叫用户n的通话次数;ps(n-m)是指用户m作为被叫用户与用户n通话次数;ms(m-n)指用户m作为主动短信发起方向用户n发送短信次数;ms(n-m)指用户m作为被动短信发起方与用户n发送短信次数。pt(m-n)i指用户m作为主叫与用户n单次通话时长超过120s的部分,单位为秒,S1为用户m作为主叫与用户n单次通话时长超过120秒的次数;pt(n-m)j指用户m作为被叫与用户n单次通话时长超过120秒的部分,单位为秒,S2为用户m作为被叫与用户n单次通话时长超过120s的次数;为向上取整。
可选地,所述步骤S103包括:
对于各用户分别求出热度值总和,包括:将该用户和该用户的各相关用户之间的热度值累加,累加结果为所述热度值总和;
将热度值的总和高于预定热度值阈值的用户作为候选用户;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510020953.9/2.html,转载请声明来源钻瓜专利网。