[发明专利]基于用户昵称的年龄预测方法、装置及电子设备有效
申请号: | 202111053027.3 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113535885B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 张猛 | 申请(专利权)人: | 北京轻松筹信息技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/9535;G06F40/247 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
地址: | 100010 北京市东城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 昵称 年龄 预测 方法 装置 电子设备 | ||
1.一种基于用户昵称的年龄预测方法,其特征在于,包括:
获取第一用户昵称;其中,所述第一用户昵称为待预测年龄的用户的昵称;
将所述第一用户昵称进行编码,生成第一词向量;
将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算,确定出目标词向量;其中,所述目标词向量为所述第二词向量中与所述第一词向量相似度最高的词向量;所述第二词向量通过对第二用户昵称进行编码后获得;所述第二用户昵称为真实年龄已知的用户的昵称;
基于预先构建的年龄分组集合,确定出所述目标词向量对应的第二用户昵称的年龄区间;其中,所述年龄分组集合包括每个所述第二用户昵称各自对应的年龄区间;
将所述目标词向量对应的第二用户昵称的年龄区间确定为所述第一用户昵称的预测年龄区间;
其中,所述将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算,确定出目标词向量,包括:计算所述第一词向量的范数以及每个所述第二词向量的范数;基于所述第一词向量、所述第二词向量、所述第一词向量的范数、每个所述第二词向量的范数以及余弦相似度算法,计算所述第一词向量与每个所述第二词向量的余弦相似度;基于所述第一词向量与每个所述第二词向量的余弦相似度,确定出所述目标词向量。
2.根据权利要求1所述的年龄预测方法,其特征在于,所述将所述第一用户昵称进行编码,生成第一词向量,包括:
将所述第一用户昵称通过Bert编码方式进行编码,生成第一词向量;其中,所述第一词向量为1*768的数组;
相应的,所述第二词向量为所述第二用户昵称通过Bert编码方式进行编码获得的,所述第二词向量为1*768的数组。
3.根据权利要求1所述的年龄预测方法,其特征在于,所述将所述第一词向量与预设的词向量库中的每个第二词向量进行相似度计算,确定出目标词向量,包括:
基于欧式距离算法,计算所述第一词向量与每个所述第二词向量的相似度;
基于所述第一词向量与每个所述第二词向量的相似度,确定出所述目标词向量。
4.根据权利要求1所述的年龄预测方法,其特征在于,每个所述第二用户昵称包括唯一的索引标识;每个所述第二用户昵称与自身通过编码后获得的第二词向量具有相同的索引标识;
所述基于预先构建的年龄分组集合,确定出所述目标词向量对应的第二用户昵称的年龄区间,包括:
基于所述目标词向量的索引标识,确定出与所述目标词向量具有相同索引标识的第二用户昵称;
从所述年龄分组集合确定出与所述目标词向量具有相同索引标识的第二用户昵称的年龄区间。
5.根据权利要求1所述的年龄预测方法,其特征在于,所述年龄分组集合的构建步骤包括:
获取所述第二用户昵称;
基于预先划分的年龄区间,将所述第二用户昵称基于各自对应的真实年龄进行归类;
统计每个年龄区间中,相同的第二用户昵称出现的次数;
当相同的第二用户昵称同时出现在不同的年龄区间时,将出现次数多的年龄区间作为该第二用户昵称的年龄区间;
将每个年龄区间中重复的第二用户昵称进行去重处理,生成所述年龄分组集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京轻松筹信息技术有限公司,未经北京轻松筹信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111053027.3/1.html,转载请声明来源钻瓜专利网。