[发明专利]一种用户实际访问网址的识别方法及装置有效
申请号: | 202010467463.4 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111611508B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 翟欣虎;秦益飞;杨正权 | 申请(专利权)人: | 江苏易安联网络技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 张欢勇 |
地址: | 211100 江苏省南京市江宁区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 实际 访问 网址 识别 方法 装置 | ||
本发明提供了一种用户实际访问网址的识别方法,包括如下步骤:S01、收集服务器上产生的用户日志;S02、按第一特征进行分组;S03、将每一组的用户日志按第二特征进行排序;S04、将已经排好序的每一组用户日志,按第一合并规则合并为若干小组,每一小组内的用户日志归并为该用户一次访问所产生的请求日志;S05、对于已经分好的一次访问产生的若干条请求日志,按第二规则构建多叉树,遍历这些请求日志,构建出一棵或者多棵多叉树;S06、统计上述一棵或者多棵多叉树的叶子节点的数量,选出其中叶子节点最多的树的根节点作为该用户当时实际访问的网站地址;S07、重复上述步骤,即可识别出用户实际访问的网址。该发明具有准确性高、实时性高的优点。
技术领域
本发明涉及了一种用户实际访问网址的识别方法及装置。
背景技术
随着互联网技术的飞速发展,使用终端接入运营商服务器并访问互联网网站的用户数量快速增长。通常情况下运营商都需要对所接入用户的上网行为进行审计,而该审计需要准确的识别出用户实际的访问网址。通常情况下记录用户访问的网址最准确的设备是用户使用的终端设备的浏览器,但运营商是无法通过简单方法拿到用户使用的终端设备上的数据的,所以最实际可行的方法是通过用户接入运营商服务器后,通过服务器所产生的用户访问日志来进行分析,如图1所示。
但实际中,对于用户使用终端设备上的浏览器访问某个互联网网站的某个页面时,浏览器向网站发出的请求的数量远大于用户在浏览器中输入的或者点击某个链接产生的那一条请求。通常情况下用户访问一个网站页面,浏览器会发出几十乃至上百条数量不等的请求给网站服务器,比如用户实际只打开某个新闻页面,而浏览器实际会额外请求若干张网页上的图片,若干段广告文本,甚至音乐,动画等。对于用户接入的运营商的服务器(网关代理等),服务器会把每一条请求都记录成一条日志,服务器只是处理记录这些请求,其本身是无法区分出用户实际访问的那个链接请求的。
基于上述情况,运营商在每时每刻产生的海量访问记录面前,对用户上网行为的审计将会产生较大偏差,例如某个用户在一小时内只访问了不到10个页面,但被运营商的网关服务器记录了近1000条请求日志,其中包含了大部分的图片,广告等信息,而这些信息对审计来说并没有什么价值,用户实际访问的网址被掩埋在大多数没有价值的数据中。所以相对准确的识别出用户实际访问的网址将对运营商的用户行为审计产生关键的作用。
从海量访问日志中识别出用户实际访问的网址有一些方法,最常见的是过滤合并方法,例如将访问日志中的URL字段中包含jpeg、mp3、js、css等关键字的日志过滤掉,将剩下的日志中相邻的且URL字段相同的多条日志合并为一条,将这些日志识别为用户实际访问的网址。但是,因为非用户实际访问的网址,也就是浏览器根据网页情况自动发送的请求,这些请求中除了一些可以被简单通过关键字过滤掉的以外,还有很大一部分是和用户实际访问的网址从结构来看没有区别,无法区分。这种情况下通过简单合并的结果会多出大量的误报日志,严重影响后续审计的准确性。
还有一种通过大量数据统计的方法,例如,不断的记录访问网站用户的用户名列表,以及所有被访问的URL的清单,同时也记录两者的对应关系,该方法认为,真正被用户访问的URL的访问频率会相对较低,当数量足够大时,通过计算URL清单中每个URL被访问的频率(一段时间内该URL被访问的次数/所有访问过该URL的用户总数),通过人工设定一个经验阈值,低于该阈值的URL则判定为用户实际访问的网址。这种方法识别的准确性完全依赖预先统计的数据的数量以及覆盖面,当数据量不够或者覆盖面较小的时候,识别的准确性依然会大幅下降。同时因为需要预先统计数据,识别的实时性也不能保证。
发明内容
为了解决背景技术中所存在的问题,本发明提出了一种用户实际访问网址的识别方法及方法。
一种用户实际访问网址的识别方法,包括如下步骤:
S01、按预设频率/周期收集服务器上产生的用户日志;
S02、将所收集的用户日志按第一特征进行分组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏易安联网络技术有限公司,未经江苏易安联网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010467463.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种波形电热元件吊挂装置
- 下一篇:一种云渲染的系统与方法