[发明专利]一种基于智能算法的垃圾短信过滤方法在审
申请号: | 201610120287.0 | 申请日: | 2016-03-03 |
公开(公告)号: | CN107155178A | 公开(公告)日: | 2017-09-12 |
发明(设计)人: | 李刚 | 申请(专利权)人: | 深圳市新悦蓝图网络科技有限公司 |
主分类号: | H04W4/14 | 分类号: | H04W4/14;H04W12/12;H04L29/06 |
代理公司: | 北京宣言律师事务所11509 | 代理人: | 杜秀军 |
地址: | 518000 广东省深圳市沙*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 算法 垃圾 短信 过滤 方法 | ||
技术领域
本发明涉及软件信息安全技术领域。更具体地,涉及一种基于智能算法的垃圾短信过滤方法。
背景技术
众所周知,手机用户经常会遇到垃圾短信,往往给手机用户带来诸多不便。因此,需要将垃圾短信过滤掉。现有技术中,垃圾短信拦截策略相对单一,绝大多数垃圾短信过滤方法采用电话号码黑名单或垃圾词汇黑名单等形式来实现。现有技术的上述垃圾短信过滤方法的缺点是简单粗暴,容易导致误判现象的发生,且误判率较高。
因此,需要提供一种基于智能算法的垃圾短信过滤方法。
发明内容
本发明的目的在于提供一种基于智能算法的垃圾短信过滤方法。
为达到上述目的,本发明采用下述技术方案:
一种基于智能算法的垃圾短信过滤方法,该垃圾短信过滤方法包括如下步骤:
S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;
S2:获得样本词汇集合;
S3:对于样本词汇集合中的任意一个独立词汇,通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率;
S4:对于样本词汇集合中的任意一个独立词汇,利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;
S5:当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,重复所述步骤S4,分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率,然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率;
S6:计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任 意一条短信为垃圾短信的概率的乘积,得到该条待过滤短信为非垃圾短信的概率,然后获得该条待过滤短信为垃圾短信的概率。
优选地,所述垃圾短信过滤方法在所述步骤S6之后还包括如下步骤:
S7:通过编码设定号码黑白名单、号码段黑名单以及基于行为的号码白名单,获得黑白名单库;
S8:利用布隆过滤算法对黑白名单库进行信息压缩,并利用判别接口和删除接口对布隆过滤算法表进行操作,以实现对待过滤短信的判别和对黑白名单库的升级。
进一步优选地,所述步骤S1为:获取原始短信样本,通过人工标记的方式将原始短信样本区分为垃圾短信样本和非垃圾短信样本,并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率。
进一步优选地,所述步骤S2为:对垃圾短信样本和非垃圾短信样本进行分词,获得在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇,且在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇构成样本词汇集合。
进一步优选地,所述贝叶斯公式为:
其中,P(S|W)为包含该独立词汇W的任意一条短信为垃圾短信的概率;P(W|S)为样本词汇集合J中的任意一个独立词汇W在垃圾短信样本S中出现的概率;P(W|H)为样本词汇集合J中的任意一个独立词汇W在非垃圾短信样本H中出现的概率;P(S)为原始短信样本中垃圾短信出现的概率;P(H)为原始短信样本中非垃圾短信出现的概率。
进一步优选地,所述黑白名单库包括号码黑白名单、号码段黑名单和基于行为的号码白名单。
更进一步优选地,所述号码黑白名单为:将已有的发送短信的号码库中的角色进行收集并设置成号码黑白名单,其中诈骗和广告推销类为黑名单,快递和市政类为白名单;所述号码段黑名单为:对广告营销类专用号码段进行垃圾短信概率权限增加,针对1069广告营销类短信通道进行更低阈值的垃圾短信判别;所述基于行为的号码白名单为:将用户本机联系人、用户主动去电号码、用户主动发送短信号码、以及用户主动回复短信号码设置为基于 行为的号码白名单。
更进一步优选地,对于基于行为的号码白名单中的任意一条短信,无需利用贝叶斯公式计算该条短信为垃圾短信的概率,直接将该条短信判定为非垃圾短信。
进一步优选地,所述步骤S1中,利用搜索引擎获取所述原始短信样本。
进一步优选地,所述步骤S7中,用户解锁开始使用手机后更新所述黑白名单库。
本发明的有益效果如下:
与现有技术相比,本发明的所述垃圾短信过滤方法首次将贝叶斯公式引入垃圾短信过滤中,结合综合性的策略整合,从而能够实现对垃圾短信的智能过滤,避免误判现象的发生,提高垃圾短信过滤的准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市新悦蓝图网络科技有限公司,未经深圳市新悦蓝图网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610120287.0/2.html,转载请声明来源钻瓜专利网。