[发明专利]一种诈骗电话号码的分析方法在审
申请号: | 201710028237.4 | 申请日: | 2017-01-16 |
公开(公告)号: | CN107506776A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 王龑;夏致昊;张俊丰;荣军;孔文峰;何文杰;庞韶敏;金红;杨满智;刘长永 | 申请(专利权)人: | 恒安嘉新(北京)科技股份公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30;H04M1/663;H04M1/665 |
代理公司: | 北京万慧达知识产权代理有限公司11111 | 代理人: | 黄玉东,王荣 |
地址: | 100191 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 诈骗 电话号码 分析 方法 | ||
技术领域
本发明属于通信网络安全及机器学习领域,尤其涉及一种诈骗电话号码的分析方法。
背景技术
近年来利用电话进行的诈骗方式呈爆发趋势,受骗面广,金额巨大,通信诈骗成为巨大的用户痛点。2013年,全国通信诈骗案30余万起,群众被骗100亿元;2014年,全国通信诈骗案40余万起,群众损失107亿元;2015年全国公安机关共立电信诈骗案件59万起,同比上升32.5%,造成经济损失222亿元。今年1月至8月,全国共立电信诈骗案件35.5万起,同比上升36.4%,造成损失114.2亿元。报告显示,近一年来,因个人信息泄露、垃圾信息、诈骗信息等原因,导致网民总体损失约805亿元,人均124元,其中约4500万网民近一年遭受的经济损失在1000元以上。这些损失的背后影射出了移动黑产的存在,移动黑产是一条完整的链条,涉及到多个环节,仅仅靠某一方的力量,无法达到有效的打击目的,需要联合各方资源,一起发力。
近10年来,我国电信诈骗案件每年以20%-30%的速度快速增长。全国共发生被骗千万元以上的电信诈骗案件104起,百万元以上的案件2392起。很多群众的“养老钱”“救命钱”被骗,倾家荡产、家破人亡;有的企业资金被骗,破产倒闭,引发群体性事件。
鉴于上述电信诈骗案率频发的现状,如何从众多的电话号码中,分析出垃圾号码,识别出诈骗电话,以帮助打击日益猖獗的电信诈骗行为,维护电信网的安全以及电信用户的利益,便成为了目前亟待解决的技术问题。
此外,目前的诈骗电话手段多样,常通过软件进行改号,并仿冒银行,运营商,熟人,社保等进行欺诈行为。对个别的电话号码进行分析,很难识别其是否为诈骗电话,而且识别准确度不高。
发明内容
本发明的目的是,提供一种诈骗电话号码的分析方法,以实现对通信中诈骗电话号码的有效和准确识别。
本发明采用的技术方案如下:
一种诈骗电话号码的分析方法,所述方法包括:
步骤S1,特征分析和提取;根据相关诈骗案例经验分析诈骗电话的原始话单信息,分析诈骗电话号码事件中的行为特征和行为场景,选取后续需要的特征并从原始话单中采集所需的特征数据集;
步骤S2,疑似类型筛选;根据不同行为场景对需要分析的话单进行筛选,得出疑似诈骗电话号码及其疑似类型,并在之后根据不同的疑似类型采用具有针对性的分析模型进行分析;
步骤S3,诈骗电话号码分类模型的训练;根据已知的正常号码、诈骗电话通话记录样本选取所需特征数据集,利用随机森林算法训练诈骗电话号码分类模型;
步骤S4,现网数据的检测和反馈;使用经过训练得到的诈骗电话号码分类模型,对经过筛选后的疑似诈骗电话号码进行检测,通过检测识别出其中的诈骗电话号码及正常电话号码,保存并输出上述各个分类的电话号码的信息。
进一步地,在上述步骤S1中,所述行为场景为诈骗者对受骗者行骗的手段,该手段包括仿冒公检法的行为场景、仿冒银行的行为场景、仿冒电商客服的行为场景。以下所示为仿冒公检法的行为场景,比如诈骗者要求受骗者拨打查询某个地区的公安号码,之后使用仿冒该公安号码的号码拨打受骗者进行行骗。根据不同的行为场景建立不同的分析模型,筛选出疑似类型后进行针对性分析。
进一步地,在上述步骤S2中,所述疑似类型包括仿冒公检法、仿冒银行、仿冒电商客服等。筛选方式为根据不同诈骗场景,只采集场景相关的话单记录。
进一步地,在上述步骤S3中,还包括:通过新的数据训练样本对诈骗电话号码分类模型进行离线训练,不断修正分类模型的判断依据。
进一步地,在上述步骤S4中,还包括:对检测识别出的上述各个分类的电话号码的信息进行人工确认及修正后,作为新的训练样本导入至原训练样本中对分类模型进行训练。
进一步地,所述诈骗电话号码的特征数据集是根据大量已知的诈骗电话号码,抽象出它们共同的行为特征形成的。
进一步地,所述行为特征包括号码所在地、主叫通话时长、与手机通话次数与总通话次数占比、是否与仿冒号码通话、主要呼叫地区、呼叫中陌生号码占比等。
进一步地,通过随机森林分类算法对诈骗号码进行模型训练和识别的方法包括:
训练过程:获得正常号码的通话记录话单,并按号码提取如上所述的特征数据集,并添加标签;获得诈骗号码的通话记录话单,并按号码提取特征数据集,并添加标签;将上述已经标记好的训练数据集导入随机森林模型当中进行训练,得到经训练的随机森林分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒安嘉新(北京)科技股份公司,未经恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710028237.4/2.html,转载请声明来源钻瓜专利网。