[发明专利]一种基于逻辑回归的用户性别预测方法有效
申请号: | 201910901326.4 | 申请日: | 2019-09-23 |
公开(公告)号: | CN112541010B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 彭文元 | 申请(专利权)人: | 银橙(上海)信息技术有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457 |
代理公司: | 上海愉腾专利代理事务所(普通合伙) 31306 | 代理人: | 唐海波 |
地址: | 201414 上海市奉贤*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 逻辑 回归 用户 性别 预测 方法 | ||
1.一种基于逻辑回归的用户性别预测方法,其特征在于,所述基于逻辑回归的用户性别预测方法包括:
获取用户数据;
对获取的用户数据进行预处理获得用户数据样本集和待预测用户数据集,包括:获取用户数据,并对其进行筛选,将其中含有性别标签的用户数据汇总形成待处理样本,将其中不含有性别标签的用户数据汇总形成待预测用户数据集,对所述待处理样本进行清洗,将清洗后的待处理样本进行特征处理以形成用户数据样本集,所述将清洗后的待处理样本进行特征处理的具体步骤包括:选取特定特征维度,按特征名和特征值的方式对所述经清洗后的待处理样本构建特征字符串,将所述特征字符串哈希并将哈希后的数值取余,从而得到所述经清洗后的待处理样本在所述特定特征维度中的位置;
根据所述用户数据样本集构建逻辑回归性别预测算法模型,包括:对所述用户数据样本集进行划分处理,形成训练样本集和测试样本集;构建逻辑回归性别预测算法初始模型,具体为设立假设函数:
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
其中,θ为特征权重向量,x为特征向量,y为输出结果,逻辑回归的假设函数即为对应y=1的概率值,判定当hθ(x)=0.5时,预测y=1,当当hθ(x)0.5时,预测y=0;
并根据所述假设函数设立代价函数:
对所述代价函数求偏导以得到梯度并构建梯度下降函数:
其中,j为第j个特征,j=(0…n),n为特征个数,α为学习率;
采用Adagrad优化算法进行模型调优:
其中:t为计算梯度的轮数,α为学习率,Gt,j为从第一轮到第t轮梯度的平方和,∈为平滑项,用于避免分母为0,gt,j为第t轮第j个特征的梯度;
向所述逻辑回归性别预测算法初始模型内输入所述训练样本集,以进行模型训练;
向经模型训练后的逻辑回归性别预测算法初始模型内输入所述测试样本集,并判断是否将该逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型以对所述待预测用户数据集进行性别预测;
通过所述逻辑回归性别预测算法模型对所述待预测用户数据集进行性别预测并输出性别预测结果。
2.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述将所述待处理样本进行清洗的具体步骤包括:
统计所述待处理样本的数据缺失率;
对所述待处理样本进行判断处理。
3.根据权利要求2所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述判断处理具体包括:
判断所述待处理样本是否特征缺失,若是,则剔除;
判断所述待处理样本的用户ID是否相同,若相同,判断其性别标签是否一致,若不一致,则删除其性别标签,并将其作为无性别标签的样本;
判断所述待处理样本是否为作弊的流量,若为作弊流量,则剔除。
4.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述对所述用户数据样本集进行划分处理,形成训练样本集和测试样本集的具体步骤包括:
根据性别标签对所述用户数据样本集进行性别划分以得到男性样本和女性样本;
判断所述男性样本和所述女性样本数量是否均衡,若不均衡,则对数量较少的样本进行扩充;
设定比例,并根据所述比例分别对男性样本和女性样本进行划分;
将占据同等比例的男性样本和女性样本组合,从而形成训练样本集和测试样本集。
5.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述模型训练具体包括:
向所述算法模型内输入所述训练样本集;
自适应调整学习率,并进行模型调优。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银橙(上海)信息技术有限公司,未经银橙(上海)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901326.4/1.html,转载请声明来源钻瓜专利网。