[发明专利]一种确定用户身份类别的方法及装置有效
申请号: | 201610388620.6 | 申请日: | 2016-06-02 |
公开(公告)号: | CN106878242B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 李辉;梅炜;操颖平;林嘉南 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F21/31;G06F40/117 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 用户 身份 类别 方法 装置 | ||
1.一种确定用户身份类别的方法,其特征在于,所述方法包括:
接收用户的数据信息,所述数据信息包括多个含有用户身份信息的标记文本,所述数据信息还包括用户的认证信息;
将多个所述标记文本与关键词词库中的属性关键词进行匹配;其中,所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;
统计所述标记文本与类别相对应的对应次数;其中,所述类别对应与所述标记文本相匹配的属性关键词;
依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别;
其中,依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别,包括:对于有认证信息的已认证用户,将与该用户的认证信息一致的类别作为已认证类别;将所述已认证类别对应的类别,确定为有认证信息的已认证用户的身份类别;依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率,记为第一概率;依据所述第一概率,确定所述未认证用户的身份类别。
2.按照权利要求1所述方法,其特征在于,在接收用户的数据信息之后,在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前,还包括:
对所述标记文本进行分词,将所述标记文本切分成至少一个切分词;
将多个所述标记文本与关键词词库中的属性关键词进行匹配,包括:
将所述标记文本中的所述切分词分别与所述属性关键词进行匹配。
3.按照权利要求2所述方法,其特征在于,统计所述标记文本与类别相对应的对应次数,包括:
若所述切分词与所述属性关键词匹配,则将所述属性关键词所对应的类别与包含所述切分词的标记文本相对应的对应次数增加一个步长单位或者计为一个步长单位;
将相同的类别与用户的各标记文本相对应的对应次数进行累加,确定用户的标记文本与各类别相对应的对应次数。
4.按照权利要求1所述方法,其特征在于,依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率,包括:
对所述已认证类别,计算已认证用户的标记文本与所述已认证类别相对应的条件下,各对应次数出现的条件概率,记为第二概率;
对已认证用户的标记文本与已认证类别相对应的对应次数,将不大于对应次数本数的各对应次数对应的所述第二概率进行累加,记为第三概率;
依据所述第三概率,确定所述第一概率;所述第一概率与所述第三概率在所述类别和所述对应次数上一一对应。
5.按照权利要求4所述方法,其特征在于,对所述已认证类别,计算已认证用户的标记文本与所述已认证类别相对应的条件下,各对应次数出现的条件概率,包括:
对所述已认证类别,统计与所述已认证类别相对应的已认证用户的总数,记为第一统计量;
对已认证类别与已认证用户的标记文本相对应的对应次数,统计各相同的对应次数出现的数量,记为第二统计量;
对已认证类别与已认证用户的标记文本相对应的各对应次数,分别以所述第二统计量为被除数、以所述第一统计量为除数,计算得到已认证用户的标记文本与所述已认证类别相对应的条件下、各对应次数出现的条件概率,记为所述第二概率。
6.按照权利要求1所述方法,其特征在于,依据所述第一概率,确定所述未认证用户的身份类别,包括:
将所述未认证用户的标记文本相对应的类别中所述第一概率最高的预设个类别对应的类别确定为所述未认证用户的身份类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610388620.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:降低蓝牙耳机功耗的方法
- 下一篇:耳机线套装收纳棒