[发明专利]一种自助式用户群扩展方法有效
申请号: | 201711303855.1 | 申请日: | 2017-12-11 |
公开(公告)号: | CN107862558B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 程学龙;黄文强;卢春;彭向晖;邱文辉 | 申请(专利权)人: | 中国南方航空股份有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 厦门致群财富专利代理事务所(普通合伙) 35224 | 代理人: | 刘兆庆;陆庆红 |
地址: | 510000 广东省广州市黄埔区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自助式 用户 扩展 方法 | ||
1.一种自助式用户群扩展方法,其特征在于,包括:
S1、数据的存储优化:在旅客标签画像系统中以竖表的形式存储旅客的画像标签,将形成的竖表取名为User_tag_value,由HBase映射至Hive,为离线自动化分析做准备;
User_tag_value中的字段名包括User_id及Tag_cd,User_id为航司会员的唯一标识符,Tag_cd为标签代码,用于表示画像标签;
S2、导入种子人群名单:将需要重点分析的具有共同某种行为特征的旅客名单上传至旅客标签画像系统;
S3、勾选画像标签:业务人员根据对种子人群的业务理解,在标签画像系统里的标签列表中选取作为模型分析的合适的标签,从而由User_tag_value生成临时表User_tag_value_tmp,将User_tag_value_tmp转换成横表结构,则每个User_id一行,各列为各个标签的0-1特征;
S4、采用半监督学习算法量化其他旅客与种子人群的相似度;
步骤S4具体包括以下步骤:
S41、采用1-DNF算法获得负样本集合;
S42、将获得的负样本集合结合种子人群的正样本集合,使用GBDT算法构建分类模型,使用构建的分类模型对其他旅客进行打分,量化其他旅客与种子人群的相似度;
S411、设全旅客横表的字段为User_id,X1,…,XN,IS_P,其中X1到XN为N个0-1标签特征,IS_P为是否正例的0-1标记,则生成如下2N个新列:Pi=Xi*IS_P,Ui=Xi*(1-IS_P),i=1to N;
S412、对P1,…,PN和U1,…,UN字段全表GroupBy求和得到一个维度为1*2N的横表,结构为SUM_P1,…,SUM_PN,SUM_U1,…,SUM_UN;
S413、使用宽转长操作将S412中的横表转成N*3维的竖表,字段为FEATURE_INDEX,SUM_P,SUM_U,其中FEATURE_INDEX值为标签定义字符“X1”,…,“XN”;
S414、对竖表通过条件SUM_P/|P|SUM_U/|U|进行过滤,留下的FEATURE_INDEX用来表征PT特征集;
S415、将FEATURE_INDEX作长转宽操作变为维度为1*n的横表,列名为Xa1,Xa2,…,Xan,表的值为常数0;其中,n为PT特征的个数,a1到an为1到N的一个子集,n=N;
S416、将全旅客横表和S415中的横表用(Xa1,Xa2,…,Xan)组合键作内关联,关联所得的User_id即为负样本集合。
2.如权利要求1所述的一种自助式用户群扩展方法,其特征在于:所述画像标签代码为8位,前6位表示画像标签的定义,标签代码的后2位表示画像标签的标签值。
3.一种自助式用户群扩展方法,其特征在于,包括:
S1、数据的存储优化:在旅客标签画像系统中以竖表的形式存储旅客的画像标签,将形成的竖表取名为User_tag_value,由HBase映射至Hive,为离线自动化分析做准备;
User_tag_value中的字段名包括User_id及Tag_cd,User_id为航司会员的唯一标识符,Tag_cd为标签代码,用于表示画像标签;
S2、导入种子人群名单:将需要重点分析的具有共同某种行为特征的旅客名单上传至旅客标签画像系统;
S3、勾选画像标签:业务人员根据对种子人群的业务理解,在标签画像系统里的标签列表中选取作为模型分析的合适的标签,从而由User_tag_value生成临时表User_tag_value_tmp,将User_tag_value_tmp转换成横表结构,则每个User_id一行,各列为各个标签的0-1特征;
S4、采用相似度距离测度算法量化其他旅客与种子人群的相似度;
所述相似度距离测度算法中,旅客i和种子人群集合S之间的相似度为:
式中,fi是旅客特征向量,F是由种子人群集合S组成的0-1特征宽表矩阵,其维度为P*K,P为种子人群集合S中的人群数目,K为特征的个数;是旅客i的0-1特征列向量,其维度为K*1;Y是标签定义的数目。
4.如权利要求3所述的一种自助式用户群扩展方法,其特征在于:所述画像标签代码为8位,前6位表示画像标签的定义,标签代码的后2位表示画像标签的标签值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国南方航空股份有限公司,未经中国南方航空股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711303855.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:顾客动态追踪系统及其方法
- 下一篇:一种广告投放方法及装置