[发明专利]一种基于特征值的短信匹配方法有效
申请号: | 201010256606.3 | 申请日: | 2010-08-18 |
公开(公告)号: | CN101930458A | 公开(公告)日: | 2010-12-29 |
发明(设计)人: | 廖建新;王晶;王纯;李炜;张少杰;彭刚;钱苏林;朱晓民;张磊;徐童;张乐剑;沈奇威;樊利民;程莉 | 申请(专利权)人: | 杭州东信北邮信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100191 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征值 短信 匹配 方法 | ||
技术领域
本发明涉及一种基于特征值的短信匹配方法,属于移动通信技术领域。
背景技术
随着移动通信技术的发展,短信匹配技术在越来越多的大话务量短信业务中得到了广泛应用。例如短信营销业务可以向用户提供订购/点播短信的业务,当用户订购/点播之后成为种子用户,短信营销平台向用户下发种子短信,并由种子用户向其他用户转发,再由转发用户进一步向其他用户传播,从而形成多级转发链,一个普通的短信营销业务应用案例存在50万条种子短信、4万/秒的短信流量,为了不存在积压,那么必须在一秒内完成50万*4万=200亿次短信内容的比较。再如对垃圾短信的监控和拦截,随着监控平台和骚扰平台的博弈,非法关键字的种类以及变种也越来越多,监控平台需在高话务量的短信流量下,快速的从海量的关键字中分析出非法短信。
虽然目前对短信(字符串)匹配的方法已经很多,但都侧重于确定的两个字符串之间的匹配,由于其字符串匹配方法自身效率提高的潜力已很小,无法在如此海量的数据下实现高效的短信匹配。如何提高大话务量下的短信匹配效率?目前也提出了一些相关的解决方案:
专利申请CN 200810107117(申请名称:句子层面的大规模快速匹配方法,申请时间:2008-07-17,申请人:安徽科大讯飞信息科技股份有限公司)涉及句子层面的大规模快速匹配方法,本方法包括索引建立、模糊匹配和精确匹配三个阶段。索引建立阶段进行句子内容的标准化、编码转换;模糊匹配阶段的目的是从海量句子中挑选出可能与新句子匹配的候选句子,其数量控制在一个可行的范围内;精确匹配阶段采用了基于编辑距离的相似性衡量算法,再根据精确匹配的相似性对候选句子排序得到最终匹配的句子。该方案所计算的哈希值只有256个值域,这样随着候选句子数量的增加,匹配工作量将成线性增长,效率也会随之成线性下降;同时当两条短信的匹配度很小、也即是内容基本无关时,该技术方案还会继续计算该两条短信的精确匹配度,因此将浪费很大一部分效率。该技术方案对大话务量下的短信匹配效率提高非常有限。
因此,如何提高大话务量下的短信匹配效率?就成为影响短信营销业务、短信监控平台等大话务量短信业务被大规模应用和推广的一个关键技术问题。
发明内容
有鉴于此,本发明的目的是提供一种基于特征值的短信匹配方法,能提高大话务量下的短信匹配效率。
为了达到上述目的,本发明提供了一种基于特征值的短信匹配方法,包括有:
步骤1、种子短信库初始化;
步骤2、计算用户短信的特征值集合,并根据所述特征值集合中每个特征值,从种子短信库中查找与所述特征值一致的种子短信,并将所找到的种子短信逐一和用户短信进行匹配;
所述步骤1还进一步包括有:
步骤A、计算种子短信库中每条种子短信的特征值集合,并将所述种子短信的短信内容和特征值保存。
与现有技术相比,本发明的有益效果是:本发明采用特征值集合的计算方式,特征值的选取具有唯一性、易算性、高效性、离散性和非线性等特点,由于特征值容量大,每条用户短信只需要和少数几条种子短信进行比较操作,同时随着种子短信的增加,需要匹配的次数是成对数级别的增加,因此本发明能有效减少短信匹配次数,从而大大提高大话务量下的短信匹配效率;每条短信可以对应有70*2个特征值的特征值集合,利用该特征值集合可以有效提高匹配的准确度和高效性,并降低短信匹配的遗漏率;通过编辑距离法可以精确的计算两条短信的匹配度,但由于其算法效率较低,因此本发明在采用编辑距离法前先进行一次高效的位向量法的匹配,当最高的匹配度可能到要求所需数值时再进行编辑距离的计算,从而进一步提高工作效率;由于实际的业务应用场景中,可能会有不完全匹配的要求,因此本发明考虑到了匹配度的设置,也即达到一定的匹配度即可;本发明对明文短信和MD5加密短信都可以提供支持。
附图说明
图1是本发明一种基于特征值的短信匹配方法流程图。
图2是种子短信库初始化的具体操作流程图。
图3是短信特征值集合的计算方法流程图。
图4是种子短信特征值和短信内容的数据保存示意图。
图5是图1步骤2的具体操作流程图。
图6是图5步骤23的具体操作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明作进一步的详细描述。
以下对本发明所用到的名词分别解释如下:
1、种子短信:需要被匹配的短信内容。
2、用户短信:移动用户发出的实际短信内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州东信北邮信息技术有限公司,未经杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010256606.3/2.html,转载请声明来源钻瓜专利网。