[发明专利]一种基于智能算法的垃圾短信过滤方法在审
申请号: | 201610120287.0 | 申请日: | 2016-03-03 |
公开(公告)号: | CN107155178A | 公开(公告)日: | 2017-09-12 |
发明(设计)人: | 李刚 | 申请(专利权)人: | 深圳市新悦蓝图网络科技有限公司 |
主分类号: | H04W4/14 | 分类号: | H04W4/14;H04W12/12;H04L29/06 |
代理公司: | 北京宣言律师事务所11509 | 代理人: | 杜秀军 |
地址: | 518000 广东省深圳市沙*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 算法 垃圾 短信 过滤 方法 | ||
1.一种基于智能算法的垃圾短信过滤方法,其特征在于,该垃圾短信过滤方法包括如下步骤:
S1:获得原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率;
S2:获得样本词汇集合;
S3:对于样本词汇集合中的任意一个独立词汇,通过统计的方法分别计算得到该独立词汇在垃圾短信样本中出现的概率以及该独立词汇在非垃圾短信样本中出现的概率;
S4:对于样本词汇集合中的任意一个独立词汇,利用贝叶斯公式计算得到包含该独立词汇的任意一条短信为垃圾短信的概率;
S5:当任意一条待过滤短信中出现所述样本词汇集合中的多个独立词汇时,对于该条待过滤短信中每一个独立词汇,重复所述步骤S4,分别计算得到仅包含该独立词汇的任意一条短信为垃圾短信的概率,然后获得包含该独立词汇的任意一条短信为非垃圾短信的概率;
S6:计算所述步骤S5得到的包含该条待过滤短信中每一个独立词汇的任意一条短信为垃圾短信的概率的乘积,得到该条待过滤短信为非垃圾短信的概率,然后获得该条待过滤短信为垃圾短信的概率。
2.根据权利要求1所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述垃圾短信过滤方法在所述步骤S6之后还包括如下步骤:
S7:通过编码设定号码黑白名单、号码段黑名单以及基于行为的号码白名单,获得黑白名单库;
S8:利用布隆过滤算法对黑白名单库进行信息压缩,并利用判别接口和删除接口对布隆过滤算法表进行操作,以实现对待过滤短信的判别和对黑白名单库的升级。
3.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述步骤S1为:获取原始短信样本,通过人工标记的方式将原始短信样本区分为垃圾短信样本和非垃圾短信样本,并通过统计的方法分别计算得到原始短信样本中垃圾短信出现的概率和非垃圾短信出现的概率。
4.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述步骤S2为:对垃圾短信样本和非垃圾短信样本进行分词,获得在垃圾短信样本和非垃圾短信样本之一中出现的所有独立词汇,且在垃圾短 信样本和非垃圾短信样本之一中出现的所有独立词汇构成样本词汇集合。
5.根据权利要求1或2所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述贝叶斯公式为:
其中,P(S|W)为包含该独立词汇W的任意一条短信为垃圾短信的概率;P(W|S)为样本词汇集合J中的任意一个独立词汇W在垃圾短信样本S中出现的概率;P(W|H)为样本词汇集合J中的任意一个独立词汇W在非垃圾短信样本H中出现的概率;P(S)为原始短信样本中垃圾短信出现的概率;P(H)为原始短信样本中非垃圾短信出现的概率。
6.根据权利要求2所述的基于智能算法的垃圾短信过滤方法,其特征在于,所述黑白名单库包括号码黑白名单、号码段黑名单和基于行为的号码白名单。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市新悦蓝图网络科技有限公司,未经深圳市新悦蓝图网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610120287.0/1.html,转载请声明来源钻瓜专利网。