[发明专利]一种基于Hadoop分布式技术的电信客户标签生成方法有效
申请号: | 201610248608.5 | 申请日: | 2016-04-20 |
公开(公告)号: | CN105930446B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 侯静;张治中 | 申请(专利权)人: | 重庆重邮汇测通信技术有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 寸南华 |
地址: | 401121 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 为解决现有技术存在的缺乏用于电信客户标签生成的方法,难于采用标签化方式对客户进行管理并向客户提供个性化的服务等问题,本发明提出一种基于Hadoop分布式技术的电信客户标签生成方法,采用分布式文件系统HDFS对电信客户标签数据源进行管理,获取用户个性化特征的各种标签窄表,运用IMSI号关联所有客户的所有标签窄表,得到统一客户标签宽表;将客户标签保存到Hbase,运用Phoenix提供用户标签信息检索入口。本发明的有益技术效果是实现了用户个性化特征信息的标签化,能有效减少客户信息查询的带宽,同时查询效率高、扩展性好,提高了电信运营商在自有业务推荐、套餐制定和终端品牌营销方面的运营能力。 | ||
搜索关键词: | 一种 基于 hadoop 分布式 技术 电信 客户 标签 生成 方法 | ||
【主权项】:
1.一种基于Hadoop分布式技术的电信客户标签生成方法,其特征在于,该方法包括如下步骤:S1、采用分布式文件系统HDFS对电信客户标签数据源进行管理,包括,将电信客户标签数据源导入到分布式文件系统HDFS,由HDFS提供高吞吐量的数据访问能力;所述分布式文件系统HDFS是指Hadoop分布式技术的子系统之一;所述Hadoop分布式技术是Apache组织管理的一个开源项目;所述数据源包括Boss数据、经分数据、IMSI库、爬虫库和客户实时上网CDR详单;S2、根据不同的客户个性化特征信息,运用Map/Reduce框架获得所有输入客户的客户标签输出原始值,形成体现客户个性化特征的各种标签窄表;所述客户个性化特征信息,包括客户基本信息、访问特性、搜索信息、业务使用、流量消耗和终端品牌信息;所述Map/Reduce框架是指Hadoop分布式技术的子系统之一的编程模型和软件框架;所述标签窄表是指体现所有输入客户某一个性化特征的标签输出原始值的汇总表,其中,Key值为客户IMSI,Value值为该IMSI所代表的客户对应的标签输出原始值;所述标签输出原始值包括反映客户个性化特征信息的基本数据;S3、运用IMSI号关联所有客户的所有标签窄表,得到统一客户标签宽表,并映射到Hive中,实现客户标签原始数据的快速查询;其中,统一客户标签宽表中,Key值为客户IMSI号,Value值为具有多列的标签输出原始值;所述Hive是指基于Hadoop分布式技术的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行;S4、根据配置文件将统一客户标签宽表中的原始值代号/原始值输出为客户标签,并将客户标签保存到Hbase;所述Hbase是指适合于非结构化数据存储的数据库,是一个具有高可靠性、高性能、面向列、可伸缩的分布式存储系统;所述配置文件的格式为:匹配类型,标签编号,输出标签,原始值代号,标签含义;所述Hbase中表结构设计为:Rowkey为IMSI+标签序号,Column‑family中包含单个列,其格式为Data:Label,存放客户标签;S5、运用Phoenix提供客户标签信息检索入口,具备支持正向/反向的双向查询能力;所述Phoenix是指一个Java中间层,可以让开发者在Apache HBase上执行SQL查询,查询引擎可以SQL查询转换为一个或多个HBase Scan,并编排执行以生成标准的JDBC结果集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆重邮汇测通信技术有限公司,未经重庆重邮汇测通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610248608.5/,转载请声明来源钻瓜专利网。