[发明专利]一种基于变体词识别技术的垃圾短信分类引擎有效
申请号: | 201910157774.8 | 申请日: | 2019-03-02 |
公开(公告)号: | CN109873755B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 毛华阳;江舟;聂传阳;古元;华仲锋;于龙;林飞;王娜;熊翱 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司;北京邮电大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F16/35;G06F16/332 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 变体 识别 技术 垃圾 短信 分类 引擎 | ||
一种基于变体词识别技术的垃圾短信分类引擎涉及信息安全技术领域。本发明由文本预处理模块,分词模块,特征选择模块,垃圾短信分类器模块组成;本发明利用字符结合度的“交叉结合度”分词模块提高了短信文本分词后的文本特征的质量,结合变体词识别技术的短信分类引擎模块可以很好地解决含有生僻字、同音字、象形字、火星文等变体词的垃圾短信分类问题,分类效果较一般分类引擎而言,准确率更高。
技术领域
本发明涉及信息技术领域,尤其是信息安全技术领域。
背景技术
随着手机等便携式移动终端的普及,短信由于其发送畅通、操作简便而被广泛应用,逐渐成为用户基础最为广泛的移动增值业务之一。然而,短信在方便人们的同时,伴随而来的是日趋泛滥的广告短信、诈骗短信等垃圾短信,这影响了用户的正常工作和生活,甚至给用户带来了经济损失。这些短信严重地损害了用户的切身利益,如何应对这些垃圾短信逐渐成为了困扰运营商和手机用户的严重问题。故为了解决上述问题,对用户收到的短信进行分类以便对垃圾短信进行过滤的方法也应运而生。
目前,主要有以下两种短信分类的技术手段,一种是基于人工提炼的关键词来进行匹配以分类,另一种是基于机器学习等算法来对短信文本内容进行识别和分类:
基于人工提炼的关键词来进行匹配以分类大致包括:首先由人工提炼生成一个敏感关键词列表,并对每个关键词配以不同的权重,然后让短信文本和关键词进行匹配,若匹配关键词的最终权重总和超过一定的阈值则认为当前短信为垃圾短信。这种方法虽然简单、处理效率较高,但是分类效果却不太理想,主要是因为这种方式不能识别短信文本内容,垃圾短信可以通过添加一些特殊字符来躲避关键词的匹配,如“赌*博”,因此对垃圾短信的拦截率较低;此外,该方法存在对正常短信误拦截,如正常用户的短信可能也存在一些敏感关键词,如“你不要赌博”,就有可能被判为垃圾短信而被拦截。
基于机器学习等算法来对短信文本内容进行识别和分类已有较多的研究,方法也有很多种,如K-均值、层次聚类等聚类算法和朴素贝叶斯、SVM等分类算法。它们利用分词工具来对训练样本集分词而得到一系列的特征词,然后利用这些特征词来学习最终得到分类器以识别垃圾短信。这些算法准确率比较高,可以较好地完成短信分类的任务,但是违规短信的发送者为了防止所发短信被识别拦截,常使用各种生僻字、同音字、象形字、火星文、拆分字、特殊符号等表达违规违法信息,而一般短信文本内容本来就较短,还添加了这些干扰信息会使传统分词手段几乎失去了作用,割裂了原有的语义,导致得到的特征词毫无意义,由此训练得到的分类器也无法很好地识别垃圾短信。因此为了提高分词的准确性,较好地还原文本原语义,针对垃圾短信分类的分词技术手段是值得研究的。
短信的分类技术主要是依据对构成短信的文字本身进行判断,目前主要采用基于关键词或基于机器学习等算法的垃圾短信分类方法。
基于关键词的垃圾短信分类是设置一些敏感关键词,并对关键词配以不同的权重,然后让短信文本和关键词进行匹配,若匹配关键词的最终权重总和超过一定的阈值则认为当前短信为垃圾短信,这种方法存在漏判或误判等缺陷,准确率不高。
基于机器学习等算法的垃圾短信分类是采用文本分类的方法把短信自动分为正常短信和垃圾短信。基于算法的垃圾短信分类与基于关键词的垃圾短信分类相比,其准确率更高,但违规短信的发送者为了防止所发短信被识别拦截,常使用各种生僻字、同音字、象形字、火星文、拆分字、特殊符号等表达违规违法信息,这导致文本分词后的特征向量偏少且含义变得无意义,影响了文本分类算法的效果。
因此一种基于变体词识别技术的垃圾短信分类引擎正被应用于解决上述问题。本发明提出了一种新的变体词识别技术,优化了短信文本的特征处理过程,解决了传统分词方法提取特征质量低下的问题,此外,本发明采用了支持向量机来对文本进行分类,可以很好地保证分类的效率和准确率,克服了传统短信分类的不足。
共有技术
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司;北京邮电大学,未经北京亚鸿世纪科技发展有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910157774.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管制区域内识别屏蔽对象方法及系统
- 下一篇:用于发送信息的方法和装置