[发明专利]一种web日志用户识别方法和系统在审
申请号: | 201811276191.9 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109583472A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 张梦菲;方金云;肖茁建 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F11/34 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 用户识别 用户行为 统一资源定位符 关键字段 行为特征 相似度 用户行为日志 有效地 构建 | ||
1.一种web日志用户识别方法,包括以下步骤:
步骤1:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;
步骤2:从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;
步骤3:根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。
2.根据权利要求1所述的方法,其中,所述多个行为特征包括访问类型、访问网站版块、访问商铺行为、访问商品行为、搜索行为中的至少一项。
3.根据权利要求1所述的方法,其中,步骤3进一步包括:
步骤31:基于从所述用户行为日志中提取的所述日志关键字段识别是否是同一个用户;
步骤32:对于没有识别出用户的用户行为日志,进一步基于所述用户行为动机相似度来进行识别。
4.根据权利要求3所述的方法,其中,所述日志关键字段还至少包括上一个访问页面的统一资源定位符referrer URL、用户标识、user-agent、cookie标识和session标识,在步骤31中,将满足以下条件中任一项的两条用户行为日志判定为同一个用户:
该两条用户行为日志的用户标识不是空字段并且相同;
该两条用户行为两条日志的cookie标识不是空字段并且相同;
该两条用户行为日志的session标识不是空字段并且相同;或者
该两条用户行为日志的统一资源定位符URL和上一个访问页面的统一资源定位符referrer URL符合网站的拓扑结构。
5.根据权利要求3所述的方法,其中,对于两条用户行为日志,步骤32包括:
步骤321:如果从该两条用户行为日志中提取的多个行为特征包含访问商铺行为,则提取主营业务描述,如果包含访问商品行为,则提取商品标题,如果包含搜索行为,则提取搜索关键词;
步骤322:对于从该两条用户行为日志中提取的主营业务描述、商品标题或搜索关键词进行用户行为动机相似度计算,如果相似度差值小于阈值,则判定该两条用户行为日志为同一个用户。
6.根据权利要求5所述的方法,其中,步骤32还包括:
步骤323,如果从该两条用户行为日志中提取的多个行为特征包括访问类型和访问网站版块,则将该两条用户行为日志的访问类型和访问网站版块进行联合对比,如果两者相同则判定该两条用户行为日志为同一个用户。
7.根据权利要求6所述的方法,其中,在步骤322中,将利用word2vec计算的第一条用户行为日志的主营业务描述或商品标题或搜索关键词中任一项的词嵌入向量和第二条用户行为日志的所述主营业务描述或商品标题或搜索关键词中任一项的词嵌入向量的余弦相似度作为所述用户行为动机相似度,如果所述用户行为动机相似度小于阈值,则判定是同一个用户。
8.一种用户识别系统,包括:
用户行为日志采集模块:用于从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;
用户行为特征提取模块:用于从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;
用户识别模块:用于根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。
9.根据权利要求8所述的系统,其特征在于,还包括:
用户行为日志预处理模块:用于对所采集的用户行为日志进行过滤或格式化;
桶划分模块:用于按照所述日志关键字段将所用户行为日志划分为大小不同的数据桶;
标识生成模块:用户对识别出的用户生成用户标识。
10.根据权利要求8或9所述的系统,其特征在于,所述系统为基于spark平台的系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811276191.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于智能手机识别的方法及装置
- 下一篇:一种特征数据的生成方法及装置