[发明专利]一种应用于电话号码分析的LR模型训练方法及使用方法有效
申请号: | 201911196854.0 | 申请日: | 2019-11-29 |
公开(公告)号: | CN111031546B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 杨书;杨毅 | 申请(专利权)人: | 武汉烽火众智数字技术有限责任公司 |
主分类号: | H04W12/128 | 分类号: | H04W12/128 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 徐瑛 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 电话号码 分析 lr 模型 训练 方法 使用方法 | ||
1.一种应用于电话号码分析的LR模型训练方法,其特征在于,所述方法包括:
获取样本数据,其中,所述样本数据包括:第一数量个黑名单电话号码、第二数量个白名单电话号码;
针对所述样本数据中的每一个电话号码,获取与每一个电话号码对应的多个权值:根据号码的归属地获取归属地权值、呼出电话次数不小于预设阈值的天数权值、使用基站的权值、归属地与总通话记录所对应的权值、短时通话的权值、关联号码的权值、相似号码的权值,其中,所述天数权值为呼出电话次数不小于预设阈值的天数与当月天数的比值,所述使用基站的权值为使用基站的个数除以该电话总通话记录数,所述归属地与总通话记录所对应的权值为主叫对端归属地总和除以该电话总通话记录数,所述短时通话的权值为通话时长小于预设时间的通话记录数除以该电话总通话记录数,所述关联号码的权值为与该号码关联的IMEI是否是黑名单,所述相似号码的权值为该号码的预设位数已属于黑名单的权值;
采用逻辑回归算法对样本数据中的每一个电话号码的每一个权值进行训练,根据迭代次数进行训练,训练中针对一个电话号码执行操作:根据迭代次数获得每一个权值对应的样本值,将样本值与对应权值进行乘积,并获得每权值与样本值的乘积之和,根据乘积之和确定样本分类误差率,并在误差率小于预设阈值时确定训练后模型为可用的逻辑回归模型;
设置黑名单电话号码的权重值和白名单电话号码的权重值,并将每一个电话号码的权值与该电话号码对应的多个权值组成多维行向量;
将每一个电话号码对应的多维行向量组成矩阵;
所述采用逻辑回归算法对样本数据中的每一个电话号码的每一个权值进行训练的步骤,包括:
采用逻辑回归算法对所述矩阵中的每一个电话号码的每一个权值进行训练。
2.根据权利要求1所述的应用于电话号码分析的LR模型训练方法,其特征在于,所述获取样本数据的步骤,包括:
获取一预设时间段内,同一批基站相同数量的第一数量个黑名单电话号码和第二数量个白名单电话号码。
3.根据权利要求1-2任一项的应用于电话号码分析的LR模型使用方法,其特征在于,所述方法包括:
针对待测号码,获得每一个待测号码对应的多个权值:根据号码的归属地获取归属地权值、待测号码次数不小于预设阈值的天数权值、使用基站的权值、归属地与总通话记录所对应的权值、短时通话的权值、关联号码的权值、相似号码的权值,其中,所述天数权值为待测号码次数不小于预设阈值的天数与当月天数的比值,所述使用基站的权值为使用基站的个数除以该待测电话总通话记录数,所述归属地与总通话记录所对应的权值为主叫对端归属地总和除以该待测号码电话总通话记录数,所述短时通话的权值为通话时长小于预设时间的通话记录数除以该待测号码的电话总通话记录数,所述关联号码的权值为与该待测号码关联的IMEI是否是黑名单,所述相似号码的权值为该待测号码的预设位数已属于黑名单的权值;
将待测号码所对应的权值通过逻辑回归模型,并通过所述逻辑回归模型进行训练打分,并在输出的打分值不小于预设分数的情况下,输出与该待测号码对应的打分。
4.根据权利要求3所述的应用于电话号码分析的LR模型使用方法,其特征在于,在待测号码为多个的情况下,所述通过所述逻辑回归模型进行训练打分,并在输出的打分值不小于预设分数的情况下,输出与该待测号码对应的打分的步骤,包括:
对每一个待测号码进行训练打分;
获取不小于预设分数的打分值,并将打分值按照降序进行排列输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火众智数字技术有限责任公司,未经武汉烽火众智数字技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911196854.0/1.html,转载请声明来源钻瓜专利网。