[发明专利]用于识别大量号码低频发送垃圾短信情况的方法有效
申请号: | 201110375767.9 | 申请日: | 2011-11-23 |
公开(公告)号: | CN103139730A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 狄卫华 | 申请(专利权)人: | 上海粱江通信系统股份有限公司 |
主分类号: | H04W4/14 | 分类号: | H04W4/14;H04W12/12 |
代理公司: | 上海兆丰知识产权代理事务所(有限合伙) 31241 | 代理人: | 章蔚强 |
地址: | 200070 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 大量 号码 低频 发送 垃圾 短信 情况 方法 | ||
技术领域
本发明涉及一种识别发送垃圾短信情况的方法,尤其涉及一种用于识别大量号码低频发送垃圾短信情况的方法。
背景技术
短信息服务作为移动通信网络的一种基本业务,在为用户提供便捷消息通信服务的同时,也为信息垃圾的传播提供了渠道。目前,垃圾短信有着愈演愈烈的趋势,垃圾短信不但带来用户投诉的不良影响,还存在着恶意欠费问题,因此需要对垃圾短信进行实时监控拦截。
随着对垃圾短信治理力度的加大,垃圾短信的发送行为也逐渐变化,目前发现了一种使用大量号码低速发送垃圾短信的情况,具有以下特征:1、购买大量手机号码同时低速发送垃圾短信;2、每个号码选取多条垃圾短信循环或随机发送;3、不同号码发送的具有相同垃圾信息的垃圾短信内容不尽相同,中间随机加入干扰字符或文字。
对于上述的大量号码低速发送垃圾短信的情况,现有的基于频次和内容的拦截方式都不能有效进行识别。
发明内容
本发明的目的在于克服现有技术的缺陷而提供一种用于识别大量号码低频发送垃圾短信情况的方法,通过内容特征相似度的方法,将短信内容中提炼出的初步内容生成对应的内容特征,并对内容特征进行累加计数,定期统计识别短信内容特征的发送次数满足用户设置的最小阈值的内容特征,对满足要求的所有内容特征逐个查找对应的主叫号码集合,然后根据设定的主叫号码离散规则来判断是否将主叫号码集合中的各主叫号码加入到嫌疑名单,从而有效识别出大量号码发送垃圾短信的情况并避免对正常短信的误拦,克服了现有短信拦截技术只能识别单一主叫发送垃圾短信的情况。
实现上述目的的技术方案是:
一种用于识别大量号码低频发送垃圾短信情况的方法,包括下列步骤:
步骤S0,设定剔除规则、相似度计算规则、相似度最小阈值、发送次数最小阈值、统计周期以及主叫号码离散规则;
步骤S1,读取短信信息,包括主叫号码和短信内容;
步骤S2,根据所述剔除规则,排除短信内容中的干扰元素,生成初步内容特征;
步骤S3,若现有的内容特征集合为空,将初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为1;
若现有的内容特征集合不为空,根据所述的相似度计算规则,计算初步内容特征和现有的内容特征集合中逐个内容特征的相似度,并与所述的相似度最小阈值逐个比较,根据比较结果,生成对应于该初步内容特征的内容特征,并保存到内容特征集合中,同时对该内容特征的发送次数进行累加;
步骤S4,判断此刻时间与上一次统计时间的时间差,是否大于或者等于所述的统计周期,若是,则进入步骤S5;若否,则进入步骤S1;
步骤S5,提取当前内容特征集合中发送次数大于或者等于所述的发送次数最小阈值的内容特征;
步骤S6,对于步骤S5中选取的所有内容特征,按顺序依次选择其中一个内容特征,追溯该内容特征对应的主叫号码集合;
步骤S7,判断步骤S6中生成的主叫号码集合中的不同主叫号码个数是否符合设定的主叫号码离散规则,若符合,进入步骤S8;若不符合,进入步骤S9;
步骤S8,将步骤S6中生成的主叫号码集合中的主叫号码加入到嫌疑名单;
步骤S9,检查步骤S5中选取的所有内容特征是否均处理完毕,若未处理完毕,进入步骤S6。
上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述步骤S3中现有的内容特征集合不为空时,
若由计算所得的相似度均小于所述的相似度最小阈值,则将所述的初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为1;
若由计算所得的相似度中至少有一个大于或者等于所述的相似度最小阈值,则选取相似度最大的内容特征作为所述的初步内容特征的内容特征,并将该内容特征的发送次数加1。
上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述剔除规则为:剔除短信内容中的干扰字符或干扰文字,其中,剔除的干扰字符或干扰文字需要预先进行设定。
上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述相似度计算规则为:S(A,B)=f(A∩B)*2*100/(f(A)+f(B)),其中,函数S(A,B)表示相似度,函数f(A)和f(B)分别表示集合A和集合B的元素个数,函数f(A∩B)表示集合A和集合B的交集元素的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海粱江通信系统股份有限公司,未经上海粱江通信系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110375767.9/2.html,转载请声明来源钻瓜专利网。