[发明专利]一种垃圾短信检测方法、终端及计算机可读存储介质在审
申请号: | 201710692660.4 | 申请日: | 2017-08-14 |
公开(公告)号: | CN110019773A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 孙宝华;林景贤;李俭 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08;H04W4/14 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;安利霞 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾短信 目标矩阵 数字编码 短信 检测 计算机可读存储介质 预处理 确认接收 终端 人工干预 自动提取 中文 | ||
本发明提供了一种垃圾短信检测方法、终端及计算机可读存储介质,其中,垃圾短信检测方法包括:对接收到的短信进行预处理,得到数字编码串;根据所述数字编码串,得到目标矩阵;根据所述目标矩阵,确认接收到的短信是否为垃圾短信。本方案通过对接收到的短信进行预处理,得到数字编码串;根据所述数字编码串,得到目标矩阵;根据所述目标矩阵,确认接收到的短信是否为垃圾短信;自动提取特征,无需人工干预,大大提升了检测精度,很好的解决了现有技术中中文垃圾短信检测精度低的问题。
技术领域
本发明涉及无线通信技术领域,特别是指一种垃圾短信检测方法、终端及计算机可读存储介质。
背景技术
目前的中文垃圾短信检测算法,采用多层判定器级联的形式,每一层的判定器负责处理一些类型的垃圾短信,并把这一层所不能处理的其他类型传递到下一层处理。级联的各层判定器包括:指纹判定,先验模型判定,大数据聚类分析,文本分类器,策略标记等五个部分组成。其中,每一层的判定器的建立,都是根据业务人员积累的专业知识,提取特征,在特征工程的基础上利用机器学习的算法进行监督学习为主的训练方法训练模型,同时也包括在大数据聚类分析层用到的非监督学习模型。用到的算法包括哈希算法,pagerank算法,SVM算法,等等。
现有技术存在以下几个缺点:精度低,算法的训练和推理的时间长,自动化程度低,过滤比例不能保证100%。
第一,由于现有技术的先验模型算法是基于人工的特征工程,包括的维度比较低,不能保证覆盖描述垃圾短信的特征空间,导致在此基础上的机器学习算法的精度低,受特征空间选取的影响很大。
第二,算法训练时间长。举例来说,仅在指纹判定层,100万的指纹库,需要6个小时的训练时间。文本分类器对于4万条短信,建模需要2天。
第三,自动化程度低,不可扩展。现有技术的特征工程部分,需要人工干预。除此之外,每一层输出的结果,级联到下一层时,还是需要人工干预,自动化程度低,不可扩展。
第四,由于现有技术采取多级判定器的级联,每一级把不能准确判定的短信转到下一级处理,所以目前已有技术存在过滤比例不能保证达到100%的问题。过滤比例是指通过垃圾短信判定系统后,可以给出明确的判定结果,即:正常/垃圾短信。现有技术在多层判定器级联之后,还是不能保证过滤比例100%。
发明内容
本发明的目的在于提供一种垃圾短信检测方法、终端及计算机可读存储介质,解决现有技术中中文垃圾短信检测精度低的问题。
为了解决上述技术问题,本发明实施例提供一种垃圾短信检测方法,包括:
对接收到的短信进行预处理,得到数字编码串;
根据所述数字编码串,得到目标矩阵;
根据所述目标矩阵,确认接收到的短信是否为垃圾短信。
可选的,所述根据所述数字编码串,得到目标矩阵;根据所述目标矩阵,确认接收到的短信是否为垃圾短信的步骤包括:
利用深度学习模型,根据所述数字编码串,得到目标矩阵;根据所述目标矩阵,确认接收到的短信是否为垃圾短信。
可选的,所述深度学习模型包括嵌入层、卷积层、池化层、丢弃层和全连接层;
所述利用深度学习模型,根据所述数字编码串,得到目标矩阵;根据所述目标矩阵,确认接收到的短信是否为垃圾短信的步骤包括:
利用所述嵌入层,对所述数字编码串进行降维处理,得到待处理矩阵;
利用所述卷积层,对所述待处理矩阵进行卷积处理,得到卷积矩阵;
利用池化层,从所述卷积矩阵中提取出特征矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710692660.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本情绪分类方法及系统
- 下一篇:标签分配方法、装置、存储介质及电子装置