[发明专利]一种基于变体词识别技术的垃圾短信分类引擎有效
申请号: | 201910157774.8 | 申请日: | 2019-03-02 |
公开(公告)号: | CN109873755B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 毛华阳;江舟;聂传阳;古元;华仲锋;于龙;林飞;王娜;熊翱 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司;北京邮电大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F16/35;G06F16/332 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 变体 识别 技术 垃圾 短信 分类 引擎 | ||
1.一种基于变体词识别技术的垃圾短信分类引擎,其特征在于由文本预处理模块,分词模块,特征选择模块,垃圾短信分类器模块组成;实现本发明的具体步骤包括:
1)文本预处理;
由文本预处理模块去除初始短信文本中的停用词、乱码、短链接,生成文本预处理后的短信文本并将文本预处理后的短信文本发送给分词模块;去除停用词所用的停用词表由哈工大停用词库加四川大学机器学习智能实验室停用词库加百度停用词表经过整合去重后得到;
2)交叉结合度分词,输出词组;
分词模块接收文本预处理后的短信文本,并将文本预处理后的短信文本加入到语料库中;语料库由不断加入的文本预处理后的短信文本加上在先收集的短信文本集合组成;
使用下列公式:
其中,wi-1wiwi+1wi+2表示短信文本中连续的4个字符;
表示语料库中,含有字符wi的总短信条数;
Nall表示语料库中,所有短信数据的总条数;
表示语料库中,含有字符串wiwi+1的总短信条数;
p(wi)表示字符wi在语料库中的经验概率,为含有字符wi的总短信条数占短信数据条数总和的比例;
p(wiwi+1)表示字符串wiwi+1在语料库中的经验概率,为含有字符串wiwi+1的总短信条数占短信数据条数总和的比例;
Ii(wi;wi+1)表示两个连续字符wi和wi+1之间的字符结合度;
表示间隔wi的wi-1和wi+1之间的字符结合度;
表示间隔wi+1的wi和wi+2之间的字符结合度;
表示间隔wi和wi+1的wi-1和wi+2之间的字符结合度;
分词模块对文本预处理后的短信文本中的连续字符依次计算相邻字符结合度Ii(wi;wi+1);
分词模块对文本预处理后的短信文本中的连续字符依次计算设定交叉字符结合度
分词模块引入Sigmoid函数进行正规化,使Ii(wi;wi+1)和Ri域转化为(0,1),即计算综合结合度综合结合度根据与的大小动态调整它们的占比,始终受与中的较大值影响较大;
当综合结合度的值大于阈值时,分词模块将生成的字符组成词组,输出分词结果;
3)特征选择模块采用TF-IDF方法生成最终的分类特征;
4)垃圾短信分类器模块采用向量机模型根据最终的分类特征对文本预处理后的短信文本进行分类,输出短信类别;向量机模型称作SVM;
向量机模型的原理如下:
训练样本集其中xi为样本点,yi∈{1,-1}为类别标签,i=1,...,l,l为训练样本个数;若训练样本是线性可分的,SVM找到w,b,使对任意i=1,...,l,有
wTxi+b>0,若yi=1
wTxi+b<0,若yi=-1
此时称wTx+b=0为分类超平面,求解w,b可通过如下优化模型得出:
s.t.在数学公式表示时,表示为受限于;
上式是一个凸二次优化问题,可求得最优解(w*,b*),可得分类超平面为(w*)Tx+b*=0,最终得分类决策函数为:
f(x)=sgn((w*)Tx+b*);
向量机模型分类的伪代码是:
for each message msgiin data do
label(msgi)←SVM_Classifier(msgi)
end for
msgi代表经过文本处理和特征选择后的文本特征向量;
SVM_Classifier(msgi)代表对特征文本msgi使用SVM分类器得到的结果;
label(msgi)代表特征文本msgi对应的短信被分为的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司;北京邮电大学,未经北京亚鸿世纪科技发展有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910157774.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管制区域内识别屏蔽对象方法及系统
- 下一篇:用于发送信息的方法和装置