[发明专利]人群画像方法及装置在审
申请号: | 202110711007.4 | 申请日: | 2021-06-25 |
公开(公告)号: | CN115526673A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 高丽;陈婷;马振;李烨宣 | 申请(专利权)人: | 中移动金融科技有限公司;中移电子商务有限公司;中国移动通信集团有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06K9/62 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈新生 |
地址: | 100037 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人群 画像 方法 装置 | ||
1.一种人群画像方法,其特征在于,包括:
获取候选标签集合,所述候选标签集合包括至少一个候选标签;
将候选标签集合和人群对应的标签集合输入第一随机森林模型进行训练,训练结束后,获取所述候选标签在每个决策树内每个节点的基尼指数,基于所述候选标签在每个决策树内每个节点的基尼指数对所述候选标签集合进行筛选,得到典型标签;
对所述典型标签的特征值进行区间分布处理,确定分布区间;
基于所述分布区间对所述典型标签的特征值进行统计分布处理,生成人群画像。
2.根据权利要求1所述的人群画像方法,其特征在于,所述基于所述候选标签在每个决策树内每个节点的基尼指数对所述候选标签集合进行筛选,得到典型标签,具体包括:
基于所述候选标签在每个决策树内每个节点的基尼指数计算所述候选标签在每个决策树所有节点的基尼指数变化量;
基于所述候选标签在每个决策树所有节点的基尼指数变化量计算所述候选标签的重要性值;
若所述候选标签的重要性值大于预设阈值,确定所述候选标签为典型标签。
3.根据权利要求2所述的人群画像方法,其特征在于,所述基于所述候选标签在每个决策树内每个节点的基尼指数计算所述候选标签在每个决策树所有节点的基尼指数变化量,具体包括:
基于所述候选标签在每个决策树内每个节点的基尼指数利用公式(1)计算所述候选标签在每个决策树所有节点的基尼指数变化量:
其中,Xi表示第i个候选标签,j表示所述第一随机森林模型的第j个决策树,m表示第j个决策树的第m个节点,M表示第j个决策树总共有M个节点,表示第i个候选标签在第j个决策树所有节点的基尼指数变化量,表示第i个候选标签在第j个决策树的第m个节点的基尼指数变化量。
4.根据权利要求2所述的人群画像方法,其特征在于,所述基于所述候选标签在每个决策树所有节点的基尼指数变化量计算所述候选标签的重要性值,具体包括:
基于所述候选标签在每个决策树所有节点的基尼指数变化量利用公式(2)计算所述候选标签的重要性值:
其中,j表示所述第一随机森林模型的第j个决策树,且1≤j≤n且表示第i个候选标签在第j个决策树所有节点的基尼指数变化量,VIM(Xi)表示第i个候选标签的重要性值。
5.根据权利要求1所述的人群画像方法,其特征在于,所述人群包括目标人群,对所述典型标签的特征值进行区间分布处理,确定分布区间,具体包括:
基于所述典型标签对所述目标人群按预设顺序进行排序;
基于预设阈值从排序结果中选择第一用户,所述第一用户为满足预设阈值的排序后的目标人群;
基于所述第一用户对应的典型标签的特征值和预设区间参数计算区间步长;
基于所述区间步长与所述第一用户对应的典型标签的特征值,确定分布区间。
6.根据权利要求1所述的人群画像方法,其特征在于,所述得到典型标签之后,还包括:
将所述典型标签和与目标场景对应的标签集合输入第二随机森林模型进行训练,通过迭代算法遍历所述第二随机森林模型的所有决策树分枝,获取典型分枝标签;
对所述典型分枝标签的特征值进行区间分布处理,确定分布区间;
基于所述分布区间对所述典型分枝标签的特征值进行统计分布处理,生成细分人群画像。
7.根据权利要求1所述的人群画像方法,其特征在于,所述对所述典型标签的特征值进行区间分布处理,确定分布区间之后,还包括:
对所述分布区间进行自定义调整,得到自定义分布区间;
基于所述自定义分布区间对所述典型标签的特征值进行统计分布处理,生成调整后的人群画像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移动金融科技有限公司;中移电子商务有限公司;中国移动通信集团有限公司,未经中移动金融科技有限公司;中移电子商务有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711007.4/1.html,转载请声明来源钻瓜专利网。