[发明专利]数据处理方法、装置、电子设备和介质在审
申请号: | 202110647282.4 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113312552A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 刘昊骋;陈奇石 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 介质 | ||
1.一种数据处理方法,包括:
获取样本用户数据;
基于二分类算法对所述样本用户数据进行有监督训练并生成决策树;以及
基于所述决策树中的一个或多个节点,生成与用户属性相关的召回规则。
2.根据权利要求1所述的方法,其中,所述基于所述决策树中的一个或多个节点,生成与用户属性相关的召回规则,包括:
对所述决策树中的一个或多个节点进行加权计算,以生成与用户属性相关的所述召回规则。
3.根据权利要求1或2所述的方法,还包括:
根据所述召回规则在数据源中匹配用户,其中,经匹配得到的用户为可召回用户。
4.根据权利要求3所述的方法,其中,所述用户属性对应于来自用户的检索词,并且其中,所述数据源为全量用户的搜索日志。
5.根据权利要求2所述的方法,其中,所述对所述决策树中的一个或多个节点进行加权计算,以生成与用户属性相关的所述召回规则,包括:
基于所述决策树中的一个或多个节点的相应的特征值生成特征值列表,其中,特征值为相应的节点用于分裂的次数与该节点分裂时的增益的乘积,所述特征值列表包含所述决策树中的所述一个或多个节点及其对应的特征值;以及
对所述特征值列表进行排序并生成与所述用户属性有关的所述召回规则。
6.根据权利要求3所述的方法,其中,所述用户属性对应于用户所安装的应用程序,并且其中,所述数据源为应用程序安装日志。
7.根据权利要求3至6中任一项所述的方法,还包括:
将所述可召回用户的用户特征输入预设的排序模型;以及
根据所述排序模型的输出结果,确定所述可召回用户是否是目标用户。
8.一种数据处理装置,包括:
获取模块,被配置为获取样本用户数据;
训练模块,被配置为基于二分类算法对所述样本用户数据进行有监督训练并生成决策树;以及
召回规则生成模块,被配置为基于所述决策树中的一个或多个节点,生成与用户属性相关的召回规则。
9.根据权利要求8所述的装置,其中,所述召回规则生成模块被进一步配置为对所述决策树中的一个或多个节点进行加权计算,以生成与用户属性相关的所述召回规则。
10.根据权利要求8或9所述的装置,还包括,
匹配模块,被配置为根据所述召回规则在数据源中匹配用户,其中,经匹配得到的用户为可召回用户。
11.根据权利要求10所述的装置,其中,所述用户属性对应于来自用户的检索词,并且其中,所述数据源为全量用户的搜索日志。
12.根据权利要求9所述的装置,其中,所述召回规则生成模块包括:
列表生成单元,被配置为基于所述决策树中的一个或多个节点的相应的特征值生成特征值列表,其中,特征值为相应的节点用于分裂的次数与该节点分裂时的增益的乘积,所述特征值列表包含所述决策树中的所述一个或多个节点及其对应的特征值;以及
排序单元,被配置为对所述特征值列表进行排序并生成与所述用户属性有关的所述召回规则。
13.根据权利要求10所述的装置,其中,所述用户属性对应于用户所安装的应用程序,并且其中,所述数据源为应用程序安装日志。
14.根据权利要求10至13中任一项所述的装置,还包括:
输入模块,被配置为将所述可召回用户的用户特征输入预设的排序模型;以及
确定模块,被配置为根据所述排序模型的输出结果,确定所述可召回用户是否是目标用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110647282.4/1.html,转载请声明来源钻瓜专利网。