[发明专利]一种短信文本分类方法及系统有效
申请号: | 201410377837.8 | 申请日: | 2014-08-01 |
公开(公告)号: | CN104112026B | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 李浩;罗云彬;王志军;王伟华 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 王丹,栗若木 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 短信 文本 分类 方法 系统 | ||
技术领域
本发明涉及短信文本处理技术,尤指一种短信文本分类方法及系统。
背景技术
在互联网大数据时代,对于用户行为的实时性处理和分析更为重要。以短信文本处理为例,由于垃圾短信的泛滥,比如欺诈短信、广告推销、反动短信等,给用户带了很大危害,因此,需要运营商通过对短信内容的识别来过滤垃圾短信。而短信的及时性特点决定了对短信的处理和下发必须在较短的时间内完成,这样,无疑要求短信处理系统具有较高的实时性。
目前,主要存在以下两种短信文本分类方法,一种是基于“关键字”+匹配规则的分类方式,另一种是基于短信文本内容的识别和分类方式。其中,
基于“关键字”+匹配规则的分类方式大致包括:当短信提交到短信网关(SMSC)时,由短信网关按照预先设置的“关键字”列表和匹配规则进行匹配,如果存在较多的敏感词则认定为垃圾短信进行拦截,反之SMSC下发短信。目前,国内的各大运营商通常采取这种方式对短信文本进行处理,这种短信分类方式虽然处理效率比较高,能够满足短信在规定时间内下发的要求,但是,效果并不理想,主要体现在以下两个方面:一方面,由于这种方式不能实现对短信文本内容的识别,因此对垃圾短信的拦截率低,比如现有的垃圾短信可能通过在中间添加特殊字符的方式来躲避关键字的匹配,如“发*票”等,造成了现有基于“关键字”+匹配规则的分类方式不能识别的情况;另一方面,会产生对正常短信的误拦截,存在着一定的误判率。比如正常的用户点对点短信可能也存在敏感词汇,如“请开增值税发票给我”,就有可能被匹配成为垃圾短信而被拦截过滤掉。
对于基于短信文本内容的识别和分类方式,其中的文本内容识别和分类已经是研究较早的课题,关于文本聚类和分类的方法也很多,比如聚类方法包括K-均值、层状聚类、基于密度的聚类;分类方法包括贝叶斯算法等等。基于短信文本内容的识别和分类方式大致包括:首先,对短信训练样本(其中包括垃圾短信)进行分词提取特征词,并通过计算形成特征向量(TF-IDF);接着,将特征向量采用K-均值等方法进行聚类形成不同的类库;然后,将待分类的短信计算特征向量后按照形成的不同的类库进行分类,分类方法可以采用K-邻接,贝叶斯等。如果待分类短信所属的类别为垃圾短信类别,则说明该短信为垃圾短信。
基于短信文本内容的识别和分类方式看似能够提高垃圾短信的过滤效率,方法也比较简洁,但是,这种方式在实验室研究中应用较多,而在真正的运营商SMSC短信网关中并没有得到应用,主要因为其存储量和计算量都太大。具体来讲,一方面,无论是训练样本聚类过程还是待分类短信分类过程,都需要先提取特征词,并计算短信的特征向量(TF-IDF)。其中,特征向量的维度与整个训练样本的特征词总数(TermsNumber)相等,假设TermsNumber=100,则每条短信特征向量的维度=100维。经过实际测试,采用4万条普通短信计算特征向量,每条特征向量维度就会达到约2500维,采用double类型表示TF-IDF,则整个二维矩阵大小为40000×2500×8≈763M,即样本的特征向量就占据了753M内存空间。还未包括聚类过程中间结果的存储,因此对于处理系统的内存消耗非常大。
另一方面,由于短信文本要进行聚类和分类,都需要先计算特征向量,而TF-IDF表示的是该特征词在该短信中的词频和关键程度,其中,TF表示该关键词在该条短信中出现的次数即词频;IDF则表示出现该关键词的短信数量与训练样本库总量之间的关系即关键程度,反映的是该关键词对于该短信文本的重要性。因此,在短信文本的聚类过程、短信文本的分类过程,都需要计算整个样本库和待分类短信的特征向量。其中,聚类过程中特征向量的计算可以通过提前计算来获得,但是分类过程,由于待分类短信文本内容的不确定性,对特征词和特征词的IDF都会产生影响,因此需要重新计算样本库TF-IDF。换算成计算量为:TermsNumber2×DocsNumber2,其中,DocsNumber代表训练样本总数。当类库的规模较大时,这个计算量是非常巨大的。另外,在分类过程中如贝叶斯分类、SVM、K-近邻算法等,算法本身的计算量也会产生较大的计算量。
这两个特点决定了基于短信文本内容的识别和分类方式,是不能满足实时性要求很高的短信分类要求的。
发明内容
为了解决上述技术问题,本发明提供了一种短信文本分类方法及系统,能够提高短信文本处理的响应速度,同时提高对垃圾短信过滤的速度和精确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410377837.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高效和大功率密度船用喷水推进泵水力模型的设计方法
- 下一篇:一种网站管理系统