[发明专利]用户类别识别方法、装置、电子设备及存储介质在审
申请号: | 201910860278.9 | 申请日: | 2019-09-11 |
公开(公告)号: | CN112488138A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 赵俊;王丹弘;李启文;刘钢庭 | 申请(专利权)人: | 中国移动通信集团广东有限公司;中国移动通信集团有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;H04M1/663 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新 |
地址: | 510623 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 类别 识别 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种用户类别识别方法、装置、电子设备及存储介质,涉及通信技术领域。用户类别识别方法包括:对采集到的用户通信数据进行预处理,得到数据样本集;根据与数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;根据扫描半径和最小包含点数,对数据样本集进行分簇,得到目标簇;根据用户行为特征和目标簇确定出用户的类别。本申请公开的用户类别识别方法、装置、电子设备及存储介质能够更加准确的识别出用户的类别,为运营商进行用户通信分析及黑灰产识别提供可靠的依据,提升用户体验。
技术领域
本申请涉及通信技术领域,尤其涉及一种用户类别识别方法、装置、电子设备及存储介质。
背景技术
在未经授权的情况下,利用传统电信网络在协议和监管机制上的缺陷伪造移动或固定网络电话号码实施欺诈和信息窃取的行为,是目前通信网络中常见的违法行为之一。通过伪造成移动或固定网络电话号码进行虚假主叫实施诈骗的方式有很多,诈骗场景多种多样,而已有的监控或识别技术能够生效的场景却是十分有限的。
现有技术的技术方案中对黑灰产等不良号码的识别主要采用特征匹配的方式进行识别,通过总结不良电话的普遍呼叫行为,统计呼叫特征,设定阈值以此区别正常电话和不良电话的通话行为,当某一呼叫特征超过阈值时,则认为该号码是不良号码,加入黑名单库。特征匹配虽然减轻了人工审核投诉的压力并且能够主动发现不良号码,但是由于规矩较为简单,指标体系不够完善,容易出现误拦、漏拦等现象。
发明内容
本申请实施例采用下述技术方案:
本申请实施例提供一种用户类别识别方法,包括:
对采集到的用户通信数据进行预处理,得到数据样本集;
根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;
根据所述扫描半径和所述最小包含点数,对所述数据样本集进行分簇,得到目标簇;
根据用户行为特征和所述目标簇确定出用户的类别。
可选的,所述方法还包括:
对所述目标簇进行聚类分析;
所述根据用户行为特征和所述目标簇确定出用户的类别,包括:
根据所述聚类分析的结果和所述用户行为特征确定出用户的类别。
可选的,所述对所述目标簇进行聚类分析,包括:
通过谱聚类算法对所述目标簇进行聚类分析。
可选的,所述对采集到的用户通信数据进行预处理,包括:
对采集到的同一基站的用户通信数据进行异常值剔除、空值处理、去重、聚合统计以及归一化处理。
可选的,所述方法还包括:
根据所述用户行为特征对归一化处理后得到的数据进行数据特征扩展,得到所述得到数据样本集。
可选的,所述根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数,包括:
根据所述数据样本集计算出对应的所述距离分布矩阵;
对所述距离分布矩阵中的每行数据以及所述所述距离分布矩阵中的每列数据进行升序排列或降序排列,得到数据点距离分布图;
根据所述数据点距离分布图中的数据点距离的密集分布程度,确定出所述扫描半径;
根据所述扫描半径确定出所述距离分布矩阵中的数据的邻域的对象数量;
计算所述对象数量的数学期望值,得到所述最小包含点数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团广东有限公司;中国移动通信集团有限公司,未经中国移动通信集团广东有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910860278.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种控制镀锡板表面取走辊辊印的方法
- 下一篇:一种设备的仿真测试方法和装置