[发明专利]一种基于移动通信数据的用户关系挖掘方法及系统在审
申请号: | 201910017263.6 | 申请日: | 2019-01-08 |
公开(公告)号: | CN109829485A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 毕佳佳;周源;姚向东 | 申请(专利权)人: | 科大国创软件股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/30 |
代理公司: | 合肥维可专利代理事务所(普通合伙) 34135 | 代理人: | 吴明华 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 家庭关系 移动通信数据 用户关系挖掘 采集原始数据 位置信息数据 测试数据集 本网用户 分类模型 辅助识别 话单数据 话单信息 基分类器 机器学习 历史用户 朋友关系 手机号码 训练数据 异网用户 决策树 准确率 本网 构建 宽表 算法 监督 | ||
1.一种基于移动通信数据的用户关系挖掘方法,其特征在于,包括如下步骤:
(1)采集全量话单信息,通过数据清洗处理,模型设计,构建本网和异网分类模型;
(2)设定话单信息的全用户集合为P,包含家庭关系的用户集合为A,包含同事关系的用户集合为B,其他关系的用户集合为C;
(3)通过分类模型,遴选话单信息集合P包含的家庭关系A;
(4)根据经验规则,判断本网用户P-A集合包含的同事关系B和其他关系C。
2.根据权利要求1所述的一种基于移动通信数据的用户关系挖掘方法,其特征在于,所述的构建分类模型包括原始数据预处理、训练集用户关系提取、计算建模指标和算法建模设计。
3.根据权利要求2所述的一种基于移动通信数据的用户关系挖掘方法,其特征在于,所述的原始数据预处理通过使用手机号码归属地匹配和号码长度排除非手机号码。
4.根据权利要求3所述的一种基于移动通信数据的用户关系挖掘方法,其特征在于,所述的训练集用户关系提取即从话单信息历史用户提取包含家庭关系的用户对以及非家庭关系的用户对,通过组合话单历史信息的所有用户对,构成训练数据集用户,再根据话单信息数据以及位置信息数据,计算指标,构建训练数据和测试数据集宽表。
5.根据权利要求4所述的一种基于移动通信数据的用户关系挖掘方法,其特征在于,所述的训练集用户关系提取还根据办理家庭融合业务数据,获取家人以及非家人标记的用户数据,再根据用户的位置信息数据对用户之间的关系进一步提纯,通过闲时位置重合情况和两者直接通话进一步确定家庭关系用户组,最终将具有家人关系和非家人关系的用户组成训练集用户。
6.根据权利要求5所述的一种基于移动通信数据的用户关系挖掘方法,其特征在于,所述的计算建模指标即根据用户的话单信息数据计算建模的指标,组建完整的训练集宽表。
7.根据权利要求6所述的一种基于移动通信数据的用户关系挖掘方法,其特征在于,所述建模指标包括交往指数、交往指数排名、交往圈距离、交往圈重合度、通话时长排名和通话次数排名,具体包括如下:
(21)计算交往指数,即计算在单位时间段维度内,用户之间通话的频繁程度,所述交往指数越大,用户之间的联系越密切,交往指数CI的表达式为:
上式的40、32、16、8、4分别表示各项的权重,My、Ty、Wy、THy、Dy是两个用户在统计周期中联系的月数、旬数、周数、三天数和天数。Mn、Tn、Wn、THn、Dn表示所用的基础数据中,包含的月数、旬数、周数、三天数和天数;
优选的,本发明的建模话单信息数据使用的时间为2个月,所以Mn=2、Tn=6、Wn=9、THn=20、Dn=61;
(22)交往指数排名,计算交往指数的基础上,对每个用户的联系人交往指数进行排名;
(23)交往圈重合度,即两个本网用户之间交往圈的重合情况,用户的所有通话的对象集,以交往指数为参考,选择单位时间段存在联系的对象纳入该用户的有效交往圈,i和j的交往圈重合度的计算表达式为:
上式中,x为i用户有效交往圈N(i)和j用户有效交往圈N(j)的共同联系对象,k(i)和k(j)分别表示用户i和用户j的总通话次数;
(24)交往圈距离,即两个本网用户交往圈空间的距离,距离越近,关系越密切,交往圈距离D(i,j)的计算表达式为:
上式中,i和j表示具有关系的两个用户,x为i用户有效交往圈N(i)和j用户有效交往圈N(j)的共同联系对象,ki(x)表示用户x与用户i之间的通话次数,kj(x)表示用户x与用户j之间的通话次数,wi(ki(x))表示用户x和用户i联系次数占用户i总联系次数的比例,wj(kj(x))表示用户x和用户j联系次数占用户j总联系次数的比例;
(25)通话时长排名,针对原始话单信息进行预处理,统计用户与之对端所有号码的月通话时长,按照降序排名,且月通话时长排名越高,关系越密切;
(26)通话次数排名,分别对单位时间段用户的通话次数汇总后求均值,再对每个用户的联系人进行排名;
(27)工作时间联系次数排名、工作时间位置重合时长排名,统计具有联系的两个用户在工作日工作时间联系次数,以及工作时间位置重合的时长,并对两个指标降序排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大国创软件股份有限公司,未经科大国创软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910017263.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种服饰分类方法、设备及计算机可读存储介质
- 下一篇:图像处理方法和装置