[发明专利]垃圾短信识别方法及装置有效
申请号: | 201710272159.2 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107135494B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 秦秋平 | 申请(专利权)人: | 北京小米移动软件有限公司 |
主分类号: | H04W4/14 | 分类号: | H04W4/14;H04W12/12;G06F40/279 |
代理公司: | 北京尚伦律师事务所 11477 | 代理人: | 代治国 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 短信 识别 方法 装置 | ||
本公开是关于一种垃圾短信识别方法及装置,该方法包括:接收待识别短信并对待识别短信进行特征提取,得到所述待识别短信的第一特征向量,使用预设的贝叶斯识别器,根据第一特征向量确定待识别短信的第一垃圾正常比;在第一垃圾正常比小于等于第一阈值大于等于第二阈值时,将第一特征向量中的第一单词替换为与第一单词的相似度超过预设阈值的第二单词,生成待识别短信的第二特征向量;使用所述贝叶斯识别器,根据待识别短信的第二特征向量确定待识别短信的第二垃圾正常比;根据第二垃圾正常比和第一垃圾正常比确定待识别短信是否为垃圾短信。该技术方案可以提升对垃圾短信的识别精度。
技术领域
本公开涉及终端技术领域,尤其涉及垃圾短信识别方法及装置。
背景技术
随着移动通信技术的发展,手机普及率的提高,手机短信由于方便、快捷等优点成为人们沟通交流的新方式。然而在短信业务快速发展的同时,也存在着一些安全隐患。例如,很多不法分子利用短信发送大量广告、虚假信息等,这些广告、虚假信息即为垃圾短信。由于垃圾短信给用户的生活带来了极大的困扰,因此,为了提供一个健康良好的通信环境,各种拦截垃圾短信的应用被开发出来。
发明内容
本公开实施例提供一种垃圾短信识别方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种垃圾短信识别方法,包括:
接收待识别短信;
对所述待识别短信进行特征提取,得到所述待识别短信的第一特征向量,所述第一特征向量中包括所述待识别短信的第一单词;
使用预设的贝叶斯识别器,根据所述待识别短信的第一特征向量确定所述待识别短信的第一垃圾正常比;
在所述第一垃圾正常比小于等于预设的第一阈值大于等于预设的第二阈值时,将所述第一特征向量中的所述第一单词替换为与所述第一单词的相似度超过预设阈值的第二单词,生成所述待识别短信的第二特征向量;
使用所述贝叶斯识别器,根据所述待识别短信的第二特征向量确定所述待识别短信的第二垃圾正常比;
根据所述第二垃圾正常比和所述第一垃圾正常比确定所述待识别短信是否为垃圾短信。
本公开的实施例提供的技术方案可以包括以下有益效果:本实施例可以在出现第一垃圾正常比不大不小不易被识别的待识别短信时,考虑到语言的多样性,将该待识别短信中作为特征的第一单词替换为相似度相近第二单词,生成该待识别短信的第二特征向量,进一步使用所述贝叶斯识别器,根据该第二特征向量计算待识别短信的第二垃圾正常比,并根据第二垃圾正常比和第一垃圾正常比来综合确定待识别短信是否为垃圾短信,提升对垃圾短信的识别精度。
在一个实施例中,所述方法还包括:
在所述第一垃圾正常比大于预设的第一阈值时,确定所述待识别短信为垃圾短信;
在所述第一垃圾正常比小于预设的第二阈值时,确定所述待识别短信为正常短信。
本公开的实施例提供的技术方案可以包括以下有益效果:本实施例可以在第一垃圾正常比大于第一阈值时,确定待识别短信为垃圾短信,在第一垃圾正常比小于预设的第二阈值时,确定待识别短信为正常短信,给出了量化的判断标准,可以准确识别出垃圾短信或正常短信。
在一个实施例中,所述方法还包括:
将样本短信中第一垃圾正常比最大的NSC条短信中最小的第一垃圾正常比设置为第一阈值,将样本短信中第一垃圾正常比最小的NNC条短信中最大的第一垃圾正常比设置为第二阈值,其中,所述NNC条短信中正常短信的比率的阈值大于阈值RN,所述NSC条短信中垃圾短信的比率的阈值大于阈值RS,所述NSC和所述NNC均为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710272159.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种鸡舍加温过滤装置
- 下一篇:一种移动式羊舍