[发明专利]一种基于用户画像数据的客群分类管理方法及装置有效
申请号: | 202011225923.9 | 申请日: | 2020-11-05 |
公开(公告)号: | CN112396428B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 于扬 | 申请(专利权)人: | 北京易观智库网络科技有限公司 |
主分类号: | G06Q30/016 | 分类号: | G06Q30/016 |
代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 朱芳 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 画像 数据 分类 管理 方法 装置 | ||
1.一种基于用户画像数据的客群划分方法,其特征在于,包括步骤:获取存储在kudu、hdfs或hive存储器中的用户画像数据;其中,所述用户画像数据包括行为数据、属性数据和标签数据;所述行为数据包括:用户ID、行为发生时间、行为内容;
将所述行为数据、属性数据和标签数据作为输入条件,按照逻辑运算条件和因子运算条件对所述用户画像数据进行计算,得到目标用户;并将所述目标用户ID按照预设时间周期与所述用户画像数据进行关联后,对所述用户画像数据进行补全和归一化操作,得到满足预设格式的特征数据;所述因子运算条件包括数值类型因子、字符类型因子和时间类型因子;所述特征数据包括行为特征数据、属性特征数据和标签特征数据;
将所述特征数据与预建的特征库进行匹配运算后,将所述目标用户划分至相应的客群;
还包括采用主成分分析算法对目标用户在不同的客群中的主成分得分,根据所述得分完成客群评价;
对所述用户画像数据按照行为发生时间创建分区,并对当日分区行为数量大于预设次数时,进行动态分桶存储;
所述将所述行为数据、属性数据和标签数据作为输入条件,按照逻辑运算条件和数值运算条件对所述用户画像数据进行计算,得到目标用户;并将所述目标用户ID按照预设时间周期与所述用户画像数据进行关联后,对所述用户画像数据进行补全和归一化操作,得到满足预设格式的特征数据;具体包括步骤:将所述行为数据、属性数据和标签数据作为输入条件,按照逻辑运算条件、采用最小化筛选原则对所述用户画像数据进行逻辑筛选;对进行逻辑筛选后的目标用户的用户画像数据分别进行数值类型因子、字符类型因子和时间类型因子的运算,得到因子运算筛选后的用户画像数据;按照时间周期将因子运算筛选后的用户画像数据与所述目标用户ID进行关联;对关联后的数据字段进行补全、归一化操作,得到满足预设格式的特征数据;
在缺省值处理部分,采用填充KNN算法进行数据补全;使用线性函数归一化算法进行字段归一,按照线性函数将用户画像数据线性化转化到[0,1]的范围,再进行距离度量、协方差计算;在数据不符合正态分布时,通过均值绝对偏差标准化、对数变换、小数定标、sigmoid函数的方式进行归一化处理。
2.根据权利要求1所述的基于用户画像数据的客群划分方法,其特征在于,将所述所述特征数据与预建的特征库进行匹配运算,包括步骤:
将所述目标用户的行为特征数据与特征库内的行为特征进行匹配时,如果抽取的行为特征包含特征库特征则可以判断为匹配成功;否则判断为匹配不成功;抽取出的用户属性特征与特征库内的属性特征进行匹配时,如果抽取的属性特征包含特征库特征则可以判断为匹配成功;否则判断为匹配不成功;抽取出的用户标签特征与特征库内的标签特征进行匹配时,如果抽取的标签特征包含特征库特征则可以判断为匹配成功;否则判断为匹配不成功。
3.一种基于用户画像数据的客群划分装置,其特征在于,包括:
数据集成模块,用于获取存储在kudu、hdfs或hive存储器中的用户画像数据;其中,所述用户画像数据包括行为数据、属性数据和标签数据;所述行为数据包括:用户ID、行为发生时间、行为内容;
特征提取模块,用于将所述行为数据、属性数据和标签数据作为输入条件,按照逻辑运算条件和因子运算条件对所述用户画像数据进行计算,得到目标用户;并将所述目标用户ID按照预设时间周期与所述用户画像数据进行关联后,对所述用户画像数据进行补全和归一化操作,得到满足预设格式的特征数据;所述因子运算条件包括数值类型因子、字符类型因子和时间类型因子;所述特征数据包括行为特征数据、属性特征数据和标签特征数据;
客群划分模块,用于将所述特征数据与预建的特征库进行匹配运算后,将所述目标用户划分至相应的客群;
客群评价模块,用于采用主成分分析算法对目标用户在不同的客群中的主成分得分,根据所述得分完成客群评价;
对所述用户画像数据按照行为发生时间创建分区,并对当日分区行为数量大于预设次数时,进行动态分桶存储;
所述特征提取模块还包括:
逻辑筛选模块,用于将所述行为数据、属性数据和标签数据作为输入条件,按照逻辑运算条件、采用最小化筛选原则对所述用户画像数据进行逻辑筛选;
因子筛选模块,用于对进行逻辑筛选后的目标用户的用户画像数据分别进行数值类型因子、字符类型因子和时间类型因子的运算,得到因子运算筛选后的用户画像数据;
关联模块,用于按照时间周期将因子运算筛选后的用户画像数据与所述目标用户ID进行关联;
补全和归一化模块,用于对关联后的数据字段进行补全、归一化操作,得到满足预设格式的特征数据;
在缺省值处理部分,采用填充KNN算法进行数据补全;使用线性函数归一化算法进行字段归一,按照线性函数将用户画像数据线性化转化到[0,1]的范围,再进行距离度量、协方差计算;在数据不符合正态分布时,通过均值绝对偏差标准化、对数变换、小数定标、sigmoid函数的方式进行归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易观智库网络科技有限公司,未经北京易观智库网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011225923.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置