[发明专利]一种基于移动通信数据的用户关系挖掘方法及系统在审
申请号: | 201910017263.6 | 申请日: | 2019-01-08 |
公开(公告)号: | CN109829485A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 毕佳佳;周源;姚向东 | 申请(专利权)人: | 科大国创软件股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/30 |
代理公司: | 合肥维可专利代理事务所(普通合伙) 34135 | 代理人: | 吴明华 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 家庭关系 移动通信数据 用户关系挖掘 采集原始数据 位置信息数据 测试数据集 本网用户 分类模型 辅助识别 话单数据 话单信息 基分类器 机器学习 历史用户 朋友关系 手机号码 训练数据 异网用户 决策树 准确率 本网 构建 宽表 算法 监督 | ||
本发明的一种基于移动通信数据的用户关系挖掘方法及系统,通过采集原始数据话单信息,排除非手机号码;从历史用户中提取家庭关系的用户对以及非家庭关系用户对,根据话单数据和位置信息数据,计算相关指标构建训练数据及测试数据集宽表;采用以决策树为基分类器的LightGBM算法,建立有监督的分类模型。本发明通过采用监督的机器学习方法,精准识别用户之间的关系,不仅识别本网用户的家庭关系,还可以识别异网用户的家庭关系以及辅助识别本网同事关系和朋友关系,在识别结果上有着很好的准确率。
技术领域
本发明涉及计算机网络信息技术领域,具体涉及一种基于移动通信数据的用户关系挖掘方法及系统。
背景技术
国内电信业务竞争已经展开,家庭和集团用户市场将是各大运营商最新角逐的市场以及开拓的新收入增长点。如何在海量用户群中准确识别出家庭用户、分析家庭用户的业务行为特征并对之进行有效的营销,是当前需要解决的话题。若不考虑建立挖掘模型,仅根据物理家庭用户和业务家庭用户的判别规则,离运营商需要部署的家庭品牌、家庭产品线的目标客户数量相差甚远。因此应用数据挖掘的技术来辅助解决潜在家庭用户挖掘这一需求已迫在眉睫。
发明内容
针对上述现有技术存在的问题,本发明提供了一种基于移动通信数据的用户关系挖掘方法,包括以下步骤:
(1)采集全量话单信息,通过数据清洗处理,模型设计,构建本网和异网分类模型
(2)设定话单信息的全用户集合为P,包含家庭关系的用户集合为A,包含同事关系的用户集合为B,其他关系的用户集合为C;
(3)根据分类模型,判断话单信息集合P包含的家庭关系A;
(4)根据经验规则,判断本网用户P-A集合包含的同事关系B和其他关系C;
作为上述方案的进一步优化,所述的构建分类模型包括原始数据预处理、训练集用户关系提取、计算建模指标和算法建模设计。
作为上述方案的进一步优化,所述的原始数据预处理通过使用手机号码归属地匹配和号码长度排除非手机号码。
作为上述方案的进一步优化,训练集用户关系提取即从话单信息历史用户提取包含家庭关系的用户对以及非家庭关系的用户对,通过组合话单历史信息的所有用户对,构成训练数据集用户,再根据话单信息数据以及位置信息数据,计算指标,构建训练数据和测试数据集宽表。
作为上述方案的进一步优化,训练集用户关系提取还根据办理家庭融合业务数据,获取家人以及非家人标记的用户数据,再根据用户的位置信息数据对用户之间的关系进一步提纯,通过闲时位置重合情况和两者直接通话进一步确定家庭关系用户组,最终将具有家人关系和非家人关系的用户组成训练集用户。
作为上述方案的进一步优化,计算建模指标即根据用户的话单信息数据计算建模的指标,组建完整的训练集宽表;建模指标包括交往指数、交往指数排名、交往圈距离、交往圈重合度、通话时长排名和通话次数排名,具体包括如下:
(21)计算交往指数,即计算在单位时间段维度内,用户之间通话的频繁程度,所述交往指数越大,用户之间的联系越密切,交往指数CI的表达式为:
上式的40、32、16、8、4分别表示各项的权重,My、Ty、Wy、THy、Dy是两个用户在统计周期中联系的月数、旬数、周数、三天数和天数。Mn、Tn、Wn、THn、Dn表示所用的基础数据中,包含的月数、旬数、周数、三天数和天数;
(22)交往指数排名,计算交往指数的基础上,对每个用户联系人交往指数进行排名;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大国创软件股份有限公司,未经科大国创软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910017263.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种服饰分类方法、设备及计算机可读存储介质
- 下一篇:图像处理方法和装置