[发明专利]基于特征相似度的垃圾短信拦截方法有效
申请号: | 200910180002.2 | 申请日: | 2009-10-21 |
公开(公告)号: | CN102045652A | 公开(公告)日: | 2011-05-04 |
发明(设计)人: | 杨良志 | 申请(专利权)人: | 深圳市彩讯科技有限公司 |
主分类号: | H04W4/12 | 分类号: | H04W4/12;H04W88/18 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 周建秋 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 相似 垃圾 短信 拦截 方法 | ||
【技术领域】
本发明涉及一种垃圾短信过滤方法,尤其是指一种基于特征相似度的垃圾短信拦截方法。
【背景技术】
随着移动通讯技术的日益发达,手机应用的覆盖面已非常广泛。其中使用手机进行短信发送,已成为人们日常沟通联系的重要方式。为此部分不法商家也开始利用短信大肆散布广告短信、反动短信,近些年甚至出现了层出不穷的短信诈骗等严重扰乱社会安定和谐的垃圾短信,而随着时下短信形式除原有文字短信,还出现了彩信、手机电邮等多样化形式,垃圾短信的问题日趋严重。为了避免大量垃圾短信在系统中泛滥,降低公众所受干扰同时减少对移动运营商正常业务开展的影响,迫切需要开发一套相对独立的专门对待发送短信进行检验的应用服务。然而现有的垃圾短信过滤器在设计时,通过预先对流行垃圾短信样本进行分析后形成垃圾关键字后对短信内容进行筛选过滤,由于关键字均为预先设定,系统又缺乏自学习能力,故此类垃圾短信过滤器智能化较低,无法对变化多端的垃圾短信作出及时应对,垃圾短信很容易通过简单改变内容即绕过过滤器。
【发明内容】
本发明的目的在于克服了上述缺陷,提供一种具有基于短信内容与垃圾短信内容的特征相似度完成垃圾短信判断并拥有自学习能力的基于特征相似度的垃圾短信拦截方法。
本发明的目的是这样实现的:一种基于特征相似度的垃圾短信拦截方法,其特征在于:它包括步骤
A)、初始化系统,于系统内存中开辟空间用于一组存放短信动态截取内容的KEY键值;同时设立数据,
对应短信动态截取后保存在内存中KEY键值的长度k,动态截取起始位置p,截取间隔字符s,短信内容长度t,
对应相似度判断有效时间m,
对应相似度判断次数计数器的最大次数n,
对应免过滤短信的白名单;
初始化设定上述k,s,m,n数据的值,并载入系统内存中;
将数据库中存放的垃圾短信特征信息内容载入内存中;
B)、系统收到来自外部的短信内容验证请求后返回允许数据通讯信号后接收待处理短信并对其内容进行备份;
C)、短信内容预处理,对短信中内容的字符进行转换成为标准字符格式;所述步骤C的短信内容字符转换包括转化全角字符、转换WORD文档支持特殊字符、大写中文数字转化成小写数字、大写字母转换成小写及类数字、字母符号转化为对应数字、字母。
D)、短信内容长度判别,判断短信内容的长度是否达到预设长度值,若未小于预设长度值,略过余下步骤,直接完成本次垃圾短信判定,否则继续步骤;
E)、短信内容判别,判断短信内容中是否含有通讯人联系方式内容,联系方式包括手机号码、联系方式、网址、银行卡号的内容,若是则将对应将通讯人联系方式提出并存储于内存组中其中一个KEY键值中,转向步骤G,否则,无对应内容则继续;
F)、短信内容动态截取,当短信中内容无步骤E所需对应内容时,首先获取原始短信内容长度t,根据公式p=t/(k+1)+t%k得出动态截取起始位置p的值,根据截取间隔字符s中设定的值规则间隔截取短信内容中的字符,当截取字符长度满足短信动态截取后保存在内存中KEY键值的长度k值后,将该段截取的短信内容进行编码并保存到内存组中其中一个KEY键值中;
G)、比较该KEY键值数据和白名单数据是否相同,若存在相同则略过余下步骤,直接完成本次垃圾短信判定,否则继续;
H)、比较该KEY键值数据和内存中存放的垃圾短信特征信息内容是否相同匹配,若存在相同继续,否则保留内存中该键值KEY的数据,同时重置有效时间m,完成本次垃圾短信判定;
I)、相似度判断次数计数器累加一;
J)、判断计数器值是否超限,判断计数器值是否超过预设最大次数n,若没有则略过余下步骤,直接完成本次垃圾短信判定,否则继续;
K)、判定为垃圾短信,当计数器超限后,拥有该内容的短信被设定为垃圾短信,系统对短信内容进行备份并写入预存放垃圾短信特征信息内容的数据库中,系统等待下次外部短信内容验证请求。
相比于常见的垃圾短信过滤方法,本发明的有益效果在于提供了一种可根据短信内容相似特征信息在一段时间内出现的概率来判断是否为群发垃圾信息的垃圾短信拦截方法,且方法中囊括了对短信内容中出现通讯人联系方式(如电话号码、网址、银行卡号)和无联系方式两种过滤算法,通过首先对短信文本的特殊字符转换预处理后,进行通讯联系人内容及动态随机短信内容截取然后于数据库中进行相似度的比较及计数,对超过计数的对应内容短信会记录为垃圾短信,并将短信内容加入垃圾短信特征信息内容数据中,整个即实现了模糊匹配文本识别、又具有智能学习识别垃圾信息功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市彩讯科技有限公司,未经深圳市彩讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910180002.2/2.html,转载请声明来源钻瓜专利网。