[发明专利]一种识别用户所属地区的方法及装置有效
申请号: | 201610121595.5 | 申请日: | 2016-03-03 |
公开(公告)号: | CN107153654B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 陆青 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/2458 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 用户 所属 地区 方法 装置 | ||
1.一种识别用户所属地区的方法,其特征在于,所述方法包括:
获取用户的电子邮箱;
将所述电子邮箱拆分成前缀信息与后缀信息;
针对每个地区,确定所述前缀信息出现在该地区的前缀判断概率,确定所述后缀信息出现在该地区的后缀判断概率;
根据每个地区对应的前缀判断概率和后缀判断概率,确定所述电子邮箱属于每个地区的最终判断概率;
根据各最终判断概率,识别所述用户所属的地区。
2.如权利要求1所述的方法,其特征在于,确定所述前缀信息出现在该地区的前缀判断概率,具体包括:
将所述前缀信息拆分成若干个字符串;
在预先针对该地区建立的前缀概率表中,确定出每个字符串出现在该地区的概率;
根据每个字符串出现在该地区的概率,以及贝叶斯公式,确定所述前缀信息出现在该地区的前缀判断概率。
3.如权利要求2所述的方法,其特征在于,预先针对该地区建立前缀概率表,具体包括:
预先获取已知所属地区的各样本邮箱;
提取各样本邮箱中的样本前缀信息;
将提取的各样本前缀信息拆分成若干个字符串;
针对由样本前缀信息拆分出的每个字符串,提取该字符串的前序字符,所述前序字符为该字符串除最后一个字符之外的字符;
确定该字符串出现在该地区的次数与该字符串的前序字符出现在该地区的次数的比值,作为该字符串出现在该地区的概率;
根据针对由样本前缀信息拆分出的每个字符串统计出的概率,建立该地区对应的前缀概率表。
4.如权利要求1所述的方法,其特征在于,确定所述后缀信息出现在该地区的后缀判断概率,具体包括:
在预先针对该地区建立的后缀概率表中,确定所述后缀信息出现在该地区的后缀判断概率。
5.如权利要求4所述的方法,其特征在于,预先针对该地区建立后缀概率表,具体包括:
预先获取已知所属地区的各样本邮箱;
提取各样本邮箱中的样本后缀信息;
针对每个样本后缀信息,统计该样本后缀信息出现在该地区的概率;
根据针对每个样本后缀信息统计出的概率,建立该地区对应的后缀概率表。
6.如权利要求1所述的方法,其特征在于,确定所述电子邮箱属于每个地区的最终判断概率,具体包括:
通过公式P=P(地区i|前缀)*P(地区i|后缀)/P(地区i),确定出所述电子邮箱属于每个地区的最终判断概率;其中:
P表示所述电子邮箱属于地区i的最终判断概率,P(地区i|前缀)表示所述前缀信息出现在地区i前缀判断概率,P(地区i|后缀)表示所述后缀信息出现在地区i的后缀判断概率,P(地区i)表示所述电子邮箱属于地区i的经验概率。
7.如权利要求1~6任一所述的方法,其特征在于,所述地区包括国家。
8.一种识别用户所属地区的装置,其特征在于,所述装置包括:
获取模块,用于获取用户的电子邮箱;
拆分模块,用于将所述电子邮箱拆分成前缀信息与后缀信息;
第一确定模块,用于针对每个地区,确定所述前缀信息出现在该地区的前缀判断概率,确定所述后缀信息出现在该地区的后缀判断概率;
第二确定模块,用于根据每个地区对应的前缀判断概率和后缀判断概率,确定所述电子邮箱属于每个地区的最终判断概率;
识别模块,用于根据各最终判断概率,识别所述用户所属的地区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610121595.5/1.html,转载请声明来源钻瓜专利网。