[发明专利]一种号段记录压缩方法及装置在审
申请号: | 201510213843.4 | 申请日: | 2015-04-29 |
公开(公告)号: | CN104866536A | 公开(公告)日: | 2015-08-26 |
发明(设计)人: | 殷舒;刘胜 | 申请(专利权)人: | 联动优势科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100088 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 记录 压缩 方法 装置 | ||
技术领域
本发明涉及数据库技术领域,尤其涉及一种号段记录压缩方法及装置。
背景技术
在很多信息系统中,常用某种ID来标识一类信息,比如,手机号、银行卡号等。通常,ID的前几位代表了一些特定的含义,比如,以134/135/136/137/138/139等开头的手机号代表是移动集团发布的手机号码;更进一步,1390100代表是移动集团发布的北京地区的手机号码。这里,1390100就是常说的手机号段,一般手机号段的长度固定为7位数字。互联网交易系统在进行联机交易的时候,如果使用手机进行付费,就需要频繁的根据交易用户的手机号码进行分析,来判定用户手机号码的一些附加信息(运营商、所在区域、使用的业务类型、用户信誉度等)。现有技术中,一般在数据库中保存号段及其附加信息构成号段记录。系统每次查询用户手机号码的附加信息时,需要通过截取手机号码的前7位并查询数据库,与数据库中存储的手机号段进行匹配,以获得手机号码的附加信息。
由于对数据库中存储的手机号段进行匹配的方法需要遍历数据库,在数据库中数据量大的时候,可能导致查询效率低下,而现实情况是,数据库中的数据量非常庞大。在分析了数据库中存储的号段记录之后,发现数据库中有很多冗余数据,例如1390100~1390109都是北京地区的神州行手机号,附加信息相同,因此可以通过压缩数据库中的冗余数据来提高查询效率。
发明内容
本发明实施例提供一种号段记录压缩方法及装置,用以解决现有的号段记录存储方法存在的数据冗余问题。
本发明实施例提供了一种号段记录压缩方法,包括:
获取号段记录集合,所述号段记录集合中每条号段记录包括号段以及与该号段对应的附加信息;
根据所述号段记录集合建立hash映射表,所述hash映射表中每条号段记录中的号段通过hash函数与该号段对应的附加信息映射;
遍历所述hash映射表,将所述hash映射表的号段记录中号段的最后一位号码不同、号段前面所有号码均相同、且具有相同附加信息的10条号段记录压缩为一条新的号段记录,所述新的号段记录的号段为所述10条号段的相同的号码部分,所述新的号段记录的附加信息为所述10条号段的相同附加信息;
存储所述新的号段记录。
较佳地,所述存储所述新的号段记录之后,还包括:
判断压缩后的所述hash映射表中号段记录数量与压缩前的所述hash映射表中号段记录的数量是否相同,若不同,则继续压缩所述hash映射表。
较佳地,所述存储所述新的号段记录之后,还包括:
根据附加信息与附加标识的映射关系,将所述新的号段记录集合中每条号段记录的号段对应的附加信息替换为该附加信息对应的附加标识,其中附加标识所占的存储空间小于附加信息所占的存储空间。
较佳地,所述存储所述新的号段记录之后,还包括:
将所述10条号段删除。
本发明实施例提供了一种号段的附加信息查询方法,附加信息位于由上面任一所述号段记录压缩方法生成的号段记录集合中,包括:
获取一条待查询号码,并确定所述待查询号码的号段;
根据所述待查询号码的号段在所述号段记录集合中查询与所述号段相同的号段,并判断是否查询成功,若未查询成功,则将所述号段的最后一位去掉后在所述号段记录集合中查询;
否则,在所述号段记录集合中确定与所述号段相同的号段对应的附加信息。
本发明实施例提供了一种号段记录压缩装置,包括:
获取单元,用于获取号段记录集合,所述号段记录集合中每条号段记录包括号段以及与该号段对应的附加信息;
映射单元,用于根据所述号段记录集合建立hash映射表,所述hash映射表中每条号段记录中的号段通过hash函数与该号段对应的附加信息映射;
压缩单元,用于遍历所述hash映射表,将所述hash映射表的号段记录中号段的最后一位号码不同、号段前面所有号码均相同、且具有相同附加信息的10条号段记录压缩为一条新的号段记录,所述新的号段记录的号段为所述10条号段的相同的号码部分,所述新的号段记录的附加信息为所述10条号段的相同附加信息;
存储单元,用于存储所述新的号段记录。
较佳地,所述压缩单元还用于:
判断压缩后的所述hash映射表中号段记录数量与压缩前的所述hash映射表中号段记录的数量是否相同,若不同,则继续压缩所述hash映射表。
较佳地,所述存储单元还用于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联动优势科技有限公司,未经联动优势科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510213843.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模拟神经网络的文本过滤方法
- 下一篇:提取网页内容的方法、装置及系统