[发明专利]用户数据分类方法、装置、服务器和计算机可读存储介质有效
申请号: | 201710401985.2 | 申请日: | 2017-05-31 |
公开(公告)号: | CN107273454B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 赫南;朱顺;孙振鹏;杨旭;陈英杰;完灏;胡景贺;温园旭;李慧倩;李婵怡 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06Q30/02 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王洵 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 数据 分类 方法 装置 服务器 计算机 可读 存储 介质 | ||
1.一种用户数据分类方法,包括:
产生用户数据的特征,所述特征包括购买商品的类目特征、人口属性特征以及时间特征,其中所述时间特征包括购买时间加权特征和与各个人生阶段有关的特征,并且其中所述购买时间加权特征定义如下:
其中λ是衰减因子,T为时间戳,ti为用户第i次购买行为的时间戳,m为截止到T为止所述用户的总购买次数;
根据标注规则,产生用户数据的标注数据集和未标注数据集;
根据所述标注数据集和未标注数据集,构建多个类别中的一个类别的正样本标注数据集P和未知样本数据集U;
根据正样本标注数据集P和未知样本数据集U以及相对应的用户数据的特征,产生分类器;
使用所述分类器确定未标注数据集中的用户数据是否属于所述类别。
2.根据权利要求1所述的方法,其中,所述用户数据是电商用户数据,所述多个类别是多个人生阶段。
3.根据权利要求2所述的方法,还包括判断所述用户数据是否满足标注规则,如果满足则加入到标注数据集中,所述标注规则包括:
如果用户数据指示只购买过一个人生阶段的商品,则将购买时间确定为该人生阶段的开始时间,
如果用户数据指示购买过多个人生阶段的商品且按照时间顺序购买,则最后一次购买的时间确定相对应的人生阶段的开始时间,和/或
如果用户数据指示购买过多个人生阶段的商品且没有按照时间顺序购买,则以最早的人生阶段为准,将属于该人生阶段的最早下单时间确定该人生阶段的开始时间;
其中,所述方法还包括,根据所确定的人生阶段的开始时间、每个人生阶段的持续时间和当前时间,确定用户数据当前属于哪个人生阶段。
4.根据权利要求1所述的方法,其中,正样本标准数据集P包括标注数据集中属于所述类别的用户数据,未知样本数据集U包括由标注数据集中不属于所述类别的用户数据和未标注数据集中的用户数据组成的集合中的至少一部分,并且产生分类器包括以下步骤:
设置分类器M为空,并且可靠负样本集合RN为空;
从P中随机采样一部分用户数据S加入U,更新P和U,记为Ps=P-S,Us=U+S;
使用Ps作为正样本,Us作为负样本,训练逻辑回归分类器LRi,i=0,1,…,如下
(1)利用S设定分类器阈值th;
(2)对于每一个样本u∈Us:如果在LRi的分类器结果小于阈值th,则将u加入RN中,并且Us=Us-RN;
(3)M=M+LRi;
使用Ps作为正样本,RN作为负样本,训练逻辑回归分类器LRi,重复以上步骤(1)-(3),直到满足迭代终止条件,得到分类器LRlast;
使用LRlast对P进行分类,如果超过一定阈值数量的正样本被判定为负,则返回LR1作为最终分类器,否则返回LRlast作为最终的分类器。
5.一种用户数据分类装置,包括:
特征产生单元,被配置为产生用户数据的特征,所述特征包括购买商品的类目特征、人口属性特征以及时间特征,其中所述时间特征包括购买时间加权特征和与各个人生阶段有关的特征,并且其中所述购买时间加权特征定义如下:
其中λ是衰减因子,T为时间戳,ti为用户第i次购买行为的时间戳,m为截止到T为止所述用户的总购买次数;
标注单元,被配置为根据标注规则,产生用户数据的标注数据集和未标注数据集;
样本构建单元,被配置为根据所述标注数据集和未标注数据集,构建多个类别中的一个类别的正样本标注数据集P和未知样本数据集U;
分类器产生单元,被配置为根据正样本标注数据集P和未知样本数据集U以及相对应的用户数据的特征,产生分类器;
分类单元,被配置为使用所述分类器确定未标注数据集中的用户数据是否属于所述类别。
6.根据权利要求5所述的装置,其中,所述用户数据是电商用户数据,所述多个类别是多个人生阶段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710401985.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音乐播放的方法、终端及存储介质
- 下一篇:区块链数据访问方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置