[发明专利]一种实现中文短信模糊匹配关键字的方法无效
申请号: | 201110242396.7 | 申请日: | 2011-08-23 |
公开(公告)号: | CN102323929A | 公开(公告)日: | 2012-01-18 |
发明(设计)人: | 肖克华 | 申请(专利权)人: | 上海粱江通信技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海兆丰知识产权代理事务所(有限合伙) 31241 | 代理人: | 章蔚强 |
地址: | 200070 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 中文 短信 模糊 匹配 关键字 方法 | ||
技术领域
本发明涉及一种实现中文短信模糊匹配关键字的方法,具体地说,对于给定的关键字,该方法除了能精确识别包含该关键字的短信外,还可以对内容中包含干扰字符、繁体字、形近字、拆分字和谐音字的短信也能够匹配该关键字。
背景技术
短信息服务作为移动通信网络的一种基本业务,在为用户提供便捷消息通信服务的同时,也为信息垃圾的传播提供了渠道。而且垃圾短信息有着愈演愈烈的趋势,垃圾短信不但带来用户投诉而产生的不良影响,还带来恶意欠费的问题,因此需要对垃圾短信进行实时监控拦截。
为了防止被监测,垃圾短信的制造者采用很多方式(如繁简体混合、形近字、谐音字、拆分字等)对内容进行处理,同时在其中混淆一些无意义的字符,用来欺骗拦截算法,以防止所发送的短信被监测和封堵。
现有的文本的模式匹配多采用精确匹配的模式,随着时间的推移,尤其是对模糊匹配的需求,这些技术都不太适合现实的需求。
发明内容
本发明的目的在于克服现有技术的缺陷而提供一种实现中文短信模糊匹配关键字的方法,通过对短信内容采用繁简体转换、中文转换拼音、形近字转换和拆分字转换等,并按照功能组合模糊匹配关键字的方法,提高垃圾短信过滤的查全率。
实现上述目的的技术方案是:
一种实现中文短信模糊匹配关键字的方法,其中,所述方法基于一导入了包括拆分字组合字典、形近字转换字典、繁简体转换字典、汉字拼音字典和近音转换字典的系统,所述方法包括以下步骤:
步骤S1,关键字设置,录入需要过滤的关键字;
步骤S2,关键字模糊转换,按照所述关键字的功能开关组合,转换该关键字为各级别的模糊关键字;所述关键字的功能开关组合包括以下功能中的一个或多个:中文繁简体转换功能、中文转拼音功能、近音转换功能、形近字转换功能、拆分字组合功能和干扰字符过滤功能;
步骤S3,短信采集,将需要匹配的短信输入所述系统;
步骤S4,短信内容模糊转换,按照所述模糊关键字所处的级别,将所述短信的内容转换成与所述模糊关键字同一级别的模糊短信;
步骤S5,匹配有效性检查,将转换后的所述模糊短信与转换后的所述模糊关键字匹配;
步骤S6,匹配结果输出,如果步骤S5中所述模糊短信与所述模糊关键字有相互匹配的字符,则过滤此条短信;否则判定为正常短信,对此短信做放通处理;继续处理下一条短信。
上述的实现中文短信模糊匹配关键字的方法,其中,所述步骤S4包括以下步骤:
步骤S41,过滤干扰字符,按照所述模糊关键字所处的级别,判断是否需要过滤干扰字符,如果不需要过滤,则跳过此步骤;否则,启用过滤开关,扫描所述短信,过滤掉该短信内容中无意义的干扰字符;
步骤S42,拆分字组合,按照所述模糊关键字所处的级别,判断是否需要拆分组合,如果不需要拆分组合,则跳过此步骤;否则,启用组合开关,扫描所述短信,如果发现满足所述拆分字组合字典中的字符组合,则转换此字符组合为字典中的标准字符;
步骤S43,形近字转换,按照所述模糊关键字所处的级别,判断是否需要形近转换,如果不需要形近转换,则跳过此步骤;否则,启用形近开关,扫描所述短信,如果发现满足所述形近字转换字典中的形近转换字符,则转换此字符为字典中的标准字符;
步骤S44,繁简转换,按照所述模糊关键字所处的级别,判断是否需要繁简转换,如果不需要繁简转换,则跳过此步骤;否则,启用繁简开关,扫描所述短信,如果发现满足所述繁简体转换字典中的字符,则转换此字符为字典中的对应的标准字符;
步骤S45,汉字转拼音,按照所述模糊关键字所处的级别,判断是否需要拼音转换,如果不需要拼音转换,则跳过此步骤;否则,启用拼音开关,扫描所述短信,发现满足所述汉字拼音字典中的字符,则转换此字符为字典中对应的标准拼音;
步骤S46,近音转换,按照所述模糊关键字所处的级别,判断是否需要近音转换,如果不需要近音转换,则跳过此步骤;否则,启用近音开关,扫描所述短信,发现满足近音转换字典中的字符,则转换此拼音为字典中对应的标准拼音。
上述的实现中文短信模糊匹配关键字的方法,其中,所述步骤S2中,所述关键字的功能开关组合不包括任何一个所述功能,即跳过步骤S2,此时,则实现所述短信对所述关键字的精确匹配。
上述的实现中文短信模糊匹配关键字的方法,其中,所述短信包括垃圾短信。
上述的实现中文短信模糊匹配关键字的方法,其中,所述短信包括大容量和高速的短信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海粱江通信技术有限公司,未经上海粱江通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110242396.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双向弹力压力板
- 下一篇:一种医疗用输液报警器