[发明专利]标签确定方法和标签确定模型训练方法有效
申请号: | 201911424667.3 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111191092B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 闫肃;陈鑫;张旭;林乐宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06N20/00;G06F16/9535 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 唐彩琴 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 确定 方法 模型 训练 | ||
1.一种标签确定方法,包括:
获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;
获取目标特征域对应的目标标签确定模型;
所述目标标签确定模型是根据第一训练样本对预训练标签确定模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
所述预训练标签确定模型是根据第二训练样本对初始标签确定模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;
将所述历史离散用户特征集合输入所述目标标签确定模型的输入层,通过所述输入层向量化所述历史离散用户特征集合,得到各特征域对应的离散特征向量;
通过所述目标标签确定模型的融合层融合各特征域对应的离散特征向量,得到所述目标用户对应的目标特征向量;
通过所述目标标签确定模型从所述目标特征域对应的候选用户标签集合中筛选出与所述目标特征向量对应的用户标签,得到所述目标用户对应的用户标签集合。
2.根据权利要求1所述的方法,其特征在于,所述第一训练样本的确定步骤包括:
获取第一时间段对应的第一训练离散业务数据集合及第二时间段对应于所述目标特征域的第二训练离散业务数据集合;所述第二时间段为第一时间段之后的时间段;所述第一训练离散业务数据集合包括所述目标特征域对应的历史离散业务数据;
根据所述第一训练离散业务数据集合确定所述第一训练离散用户特征集合;
根据所述第二训练离散业务数据集合确定所述目标特征域的训练标签。
3.根据权利要求1所述的方法,其特征在于,所述预训练标签确定模型的调整步骤包括:
获取预设的第一保留概率及第二保留概率;
根据所述第一训练样本对所述预训练标签确定模型进行调整,并且以所述第一保留概率保留第一训练离散用户特征集合中目标特征域对应的历史离散用户特征,以第二保留概率保留第一训练离散用户特征集合中其他特征域对应的历史离散用户特征。
4.根据权利要求1所述的方法,其特征在于,所述第二训练样本的确定步骤包括:
分别获取各训练特征域对应的训练行为数据集合;
获取各所述训练行为数据集合中各训练行为数据对应的标签,得到各训练特征域对应的第一标签集合;
根据各所述第一标签集合中各标签对应的训练行为数据所对应的行为次数及时间衰减系数,确定各所述第一标签集合中各标签的权重;
根据各所述第一标签集合中各标签的权重确定所述第二训练样本对应的候选标签集合;
从所述候选标签集合中选取预设数量的候选标签作为所述第二训练样本对应的目标训练标签,根据所述目标训练标签得到所述第二训练样本对应的训练标签集合;
将所述候选标签集合中剩下的标签组成所述第二训练样本对应的第二训练离散用户特征集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标训练标签得到所述第二训练样本对应的训练标签集合包括:
将所述目标训练标签确定为所述第二训练样本对应的正训练标签;
获取负训练标签;所述负训练标签为第一训练标签和第二训练标签中的至少一种;所述第一训练标签为其他训练样本对应的正训练标签;所述第二训练标签为预设的标签词典中的标签;
将所述正训练标签和负训练标签组成所述第二训练样本对应的训练标签集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911424667.3/1.html,转载请声明来源钻瓜专利网。