[发明专利]一种基于中文分词识别不规则垃圾短信的方法有效

申请号：	201210533577.X	申请日：	2012-12-12
公开（公告）号：	CN103874033B	公开（公告）日：	2017-11-24
发明（设计）人：	肖克华	申请（专利权）人：	上海粱江通信系统股份有限公司
主分类号：	H04W4/14	分类号：	H04W4/14;H04M1/725;G06F17/27
代理公司：	上海兆丰知识产权代理事务所(有限合伙)31241	代理人：	章蔚强
地址：	200070 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于中文分词识别不规则垃圾短信的方法，对于同一短信，依据短信的内容，先按照正常的横向读取进行中文分词，根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点，判定不规则短信内容的范围，对不规则排列短信内容范围内的字符采取竖向转换为横向排列，然后进行中文分词，根据总体的分词结果的单词个数计算权重。然后根据两次权重比较，判断此短信是正常排列的短信，还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字，识别是否垃圾短信，进而避免了垃圾短信的漏判，提高垃圾短信的查全率和查准率。
搜索关键词：	一种基于中文分词识别不规则垃圾短信方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于中文分词识别不规则垃圾短信的方法，其特征在于，包括下列步骤：步骤S1，接收短信，读取短信内容；步骤S2，根据短信内容，按照从左到右的横向排列方式，进行中文分词；步骤S3，按步骤S2的中文分词结果，记录单词个数W1，W1为正整数，计算短信横排权重Q1＝1/(1+W1)；步骤S4，根据不规则排列短信用控制字符控制每行短信字符数的特点，计算上述接收的短信的不规则区域，将不规则区域中的短信内容按照竖向排列方式读取，按照读取的短信内容，将上述接收的短信转换为横向排列的短信；步骤S5，对步骤S4中转换得到的短信，按照从左到右的横向排列方式进行中文分词；步骤S6，按步骤S5的中文分词结果，记录单词个数W2，W2为正整数，计算短信竖排权重Q2＝1/(1+W2)；步骤S7，比较短信横排权重Q1与短信竖排权重Q2，若Q1<Q2，进入步骤S8b；若Q1>＝Q2，进入步骤S8a；步骤S8a，判定短信为正常排列短信；步骤S8b，判定短信为不规则排列短信，所述步骤S4中，所述的计算上述接收的短信的不规则区域，指：计算每行字符的个数，按照每行的字符个数模型，确定短信的不规则区域，所述的每行的字符个数模型，指：等长规则或者等差规则，其中，等长规则指：当前行的字符个数和上一行的字符个数相等；等差规则指：当前行的字符个数与上一行的字符个数的差等于同一个常数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海粱江通信系统股份有限公司，未经上海粱江通信系统股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210533577.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W4-00 专门适用于无线通信网络的业务或设施
H04W4-02 .利用用户或终端位置的业务
H04W4-06 .广播选择分发；到用户组的业务；单向选呼业务
H04W4-12 .消息传送，例如SMS[短消息业务]；邮箱；通告，例如，通知用户通信请求的状态或进展
H04W4-16 .与通信相关的补充业务,例如，呼叫转移或呼叫保持
H04W4-18 .信息格式或内容转换，例如，为了向用户或终端无线传送的目的，由网络对发送或接收的信息进行适应修改

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于中文分词识别不规则垃圾短信的方法有效

专利文献下载