[发明专利]一种web日志用户识别方法和系统在审
申请号: | 201811276191.9 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109583472A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 张梦菲;方金云;肖茁建 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F11/34 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 用户识别 用户行为 统一资源定位符 关键字段 行为特征 相似度 用户行为日志 有效地 构建 | ||
本发明提供了一种web日志用户识别方法和系统。该方法包括:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。本发明的方法和系统能够根据web日志准确有效地进行用户识别。
技术领域
本发明涉及信息技术领域,尤其涉及一种web日志用户识别方法和系统。
背景技术
用户识别技术作为Web日志挖掘的基础,是从大量无序的数据中分析出匿名用户的独立行为轨迹和特征,并最终识别出唯一的用户个体。在现有技术中,通常利用启发式方法,根据用户的IP、cookie标识和user-agent等信息来追踪用户,而由于用户在登陆internet时,互联网服务提供商往往会随机分配IP地址给用户,使得一个用户拥有很多IP地址,因此这种方法面临着以下问题:1)、“多用户问题”和“单用户问题”,“多用户问题”是指同一个用户在不同的时间内通过在地址栏输入URL或从收藏夹中进入网页会被识别为多个用户,“单用户问题”是指多个用户共享一个IP甚至使用同种设备和浏览器可能会被识别为一个用户。2)、效率问题,对于web用户访问量在百万级别以上的情况,目前的用户识别算法的效率不高。
因此,需要对现有技术进行改进,以提供一种处理效率高并且识别准确率高的用户识别方法和系统。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种web日志用户识别方法和系统。
根据本发明的第一方面,提供了一种web日志用户识别方法,该方法包括以下步骤:
步骤1:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;
步骤2:从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;
步骤3:根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。
在一个实施例中,所述多个行为特征包括访问类型、访问网站版块、访问商铺行为、访问商品行为、搜索行为中的至少一项。
在一个实施例中,步骤3进一步包括:
步骤31:基于从所述用户行为日志中提取的所述日志关键字段识别是否是同一个用户;
步骤32:对于没有识别出用户的用户行为日志,进一步基于所述用户行为动机相似度来进行识别。
在一个实施例中,所述日志关键字段还至少包括上一个访问页面的统一资源定位符referrer URL、用户标识、user-agent、cookie标识和session标识,在步骤31中,将满足以下条件中任一项的两条用户行为日志判定为同一个用户:
该两条用户行为日志的用户标识不是空字段并且相同;
该两条用户行为两条日志的cookie标识不是空字段并且相同;
该两条用户行为日志的session标识不是空字段并且相同;或者
该两条用户行为日志的统一资源定位符URL和上一个访问页面的统一资源定位符referrer URL符合网站的拓扑结构。
在一个实施例中,对于两条用户行为日志,步骤32包括:
步骤321:如果从该两条用户行为日志中提取的多个行为特征包含访问商铺行为,则提取主营业务描述,如果包含访问商品行为,则提取商品标题,如果包含搜索行为,则提取搜索关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811276191.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于智能手机识别的方法及装置
- 下一篇:一种特征数据的生成方法及装置