[发明专利]垃圾短信检测方法、系统及设备在审
申请号: | 202010912030.5 | 申请日: | 2020-09-02 |
公开(公告)号: | CN112188419A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 王庚润;刘树新;王凯;李英乐;李星;朱宇航;何赞园;吉立新;李海涛 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | H04W4/14 | 分类号: | H04W4/14;H04W12/12;G06F40/253;G06K9/62;G06N20/00 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 短信 检测 方法 系统 设备 | ||
1.一种垃圾短信检测方法,其特征在于,基于语法错误检测和呼叫行为分析实现,包含如下内容:
收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
2.根据权利要求1所述的垃圾短信检测方法,其特征在于,垃圾短信样本中样本数据为已知标签样本数据。
3.根据权利要求1所述的垃圾短信检测方法,其特征在于,提取的呼叫行为特征至少包含:重复率及主叫被叫比。
4.根据权利要求3所述的垃圾短信检测方法,其特征在于,依据多个被叫收到相同内容短信来提取重复率特征。
5.根据权利要求3所述的垃圾短信检测方法,其特征在于,依据主叫号码作为被叫时收到短信次数来提取主叫被叫比特征。
6.根据权利要求1所述的垃圾短信检测方法,其特征在于,提取的语法错误特征至少包含:同音替换、繁简混用、含有空格和/或隔开字符、及含有敏感词。
7.根据权利要求6所述的垃圾短信检测方法,其特征在于,依据短信内容中关键词及引导性关键词的敏感词关联度来提取含有敏感词特征。
8.一种垃圾短信检测系统,其特征在于,基于语法错误检测和呼叫行为分析实现,包含如下内容:收集模块、学习模块和匹配模块,其中,
收集模块,用于收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
学习模块,用于针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
匹配模块,用于针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
9.一种垃圾短信检测设备,其特征在于,设于电信网终端之间用于通过检测短信流来筛选垃圾短信,以实现垃圾短信的防护,该检测设备基于语法错误检测和呼叫行为分析实现,包含:收集模块、学习模块和匹配模块,其中,
收集模块,用于收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
学习模块,用于针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;
并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
匹配模块,用于针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时执行权利要求1~7任一项所述的垃圾短信检测方法中步骤内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010912030.5/1.html,转载请声明来源钻瓜专利网。