[发明专利]一种https环境下用户行为分析的方法和系统在审
申请号: | 201710122538.3 | 申请日: | 2017-03-03 |
公开(公告)号: | CN106878438A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 白晟;张伟 | 申请(专利权)人: | 久远谦长(北京)技术服务有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市昌*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 https 环境 用户 行为 分析 方法 系统 | ||
技术领域
本发明属于互联网领域,涉及一种https环境下用户行为分析的方法。
背景技术
http用户访问请求报文数据一直以来是在互联网环境下用户行为分析主要数据来源,通过http报文,可以有效跟踪用户行为路径、内容和频率,从而分析互联网用户的行为习惯、行为预测,从而为企业、投资者等提供有力的决策依据,根据不同用户制订并执行详尽、有效的策略。
随着互联网的不断发展,承载的业务越来越多,特别是终端支付、金融理财等业务的发展,使得数据传输的安全性要求越来越高,因此很多应用/Web服务逐步将http切换为https,保证客户端与服务器间通信安全性,如天猫、淘宝、百度、京东、IOS APP等。
https在http的基础上加入了TLS/SSL协议,TSL/SSL依靠证书来验证服务器的身份,并为浏览器和服务器之间的通信加密。而原来基于http访问报文分析的方法已经无法抓取到用户真实的访问URL的全部数据,也就无法对用户的互联网行为进行深入分析。
目前主要有两种方式:
方案一:
通过分析https中仅能记录的host等有限信息粗略分析用户行为。这种方案,由于https数据中仅能明文获取用户访问请求的host信息,无法记录到用户访问该host下详细的path从而获取完整的URL,因此也就无法做到用户访问内容的深入分析,不能为决策提供有效的数据支撑。
方案二:
在客户端与用户访问的服务器之间架设Proxy代理,实现对https请求劫持。通过对https请求劫持,可以实现与http完全相同的分析效果,但无法实现对全网用户行为的分析能力,比较适合企业网络出口处架设Proxy代理,实现企业内部用户行为跟踪和分析,因此该方案存在Proxy代理服务器部署的技术限制、场景限制和成本限制。
发明内容
针对上述问题,本发明通过建立互联网内容页面特征库、结合https可以获取的有限信息,基于大数据分析技术,对用户实际访问内容的准确计算,实现https下用户互联网行为分析。
本发明解决上述技术问题所采取的技术方案如下:
一种https环境下用户行为分析的方法,包括:
步骤1)对需要分析的互联网资源页面建立内容特征库,特征库由多个特征码组成,特征码包括:https请求URL的Host、页面大小、页面包含资源内容、资源内容大小、动态资源信息、内嵌URLs及数量之一或者组合;
步骤2)对用户访问互联网资源的https报文数据逐条分析,提取特征信息,以与特征码匹配分析;
步骤3)将提取特征信息的日志与内容特征库中的特征码匹配,还原用户真实访问行为,并做进一步的分析和统计。
优选的是,步骤1)中,针对需要分析的网站通过爬虫技术爬取所需要分析的每个网页,根据爬取网页的数据建立网页特征库。
优选的是,步骤2)中,提取的特征信息选自以下:
访问URL的Host/Domain;
https请求页面未缓存部分的总长度;
https请求页面中未缓存的图片或者CSS加载资源的数量;
页面加载的每一个资源对象的大小;
https请求发生的时间。
优选的是,步骤2)中,基于以上1个或多个特征信息组合形成一个或多个特征指纹,通过一定时间范围内用户访问https请求确定用户访问路径。
优选的是,步骤3)中将提取特征信息的日志与内容特征库中的特征码匹配具体选自以下的方法:
通过指纹组合唯一匹配;
如果无法通过指纹组合唯一匹配时,可以通过访问该网页时同时加载的资源或URL序列多条件匹配;
从页面中获取3-5个必定每次会加载的对象内容,同时获取这些对象内容的大小和host信息,依据每次加载页面访问对象序列的host信息和对象大小作为指纹信息进行匹配。
一种https环境下用户行为分析的系统,包括:
特征库建立单元,用于对需要分析的互联网资源页面建立内容特征库,特征库由多个特征码组成,特征码包括:https请求URL的Host、页面大小、页面包含资源内容、资源内容大小、动态资源信息、内嵌URLs及数量之一或者组合;
特征码匹配单元,用于对用户访问互联网资源的https报文数据逐条分析,提取特征信息,以与特征码匹配分析;
行为还原单元,用于将提取特征信息的日志与内容特征库中的特征码匹配,还原用户真实访问行为,并做进一步的分析和统计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于久远谦长(北京)技术服务有限公司,未经久远谦长(北京)技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710122538.3/2.html,转载请声明来源钻瓜专利网。