[发明专利]一种用于Web会话聚合的关键Cookies识别方法在审
申请号: | 201410181682.0 | 申请日: | 2014-04-28 |
公开(公告)号: | CN103944916A | 公开(公告)日: | 2014-07-23 |
发明(设计)人: | 陈德华;沈昌干;潘乔;罗昕 | 申请(专利权)人: | 东华大学;上海云屹信息技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹 |
地址: | 201620 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 web 会话 聚合 关键 cookies 识别 方法 | ||
1.一种用于Web会话聚合的关键Cookies识别方法,其特征在于,步骤为:
步骤1、获取Web日志文件,提取出Web日志文件中每条记录的站点名称Site;
步骤2、以站点名称Site为分组依据将Web日志文件中的所有记录分组,使得同一站点名称Site的记录都合并到一个组,并建立其与相应站点名称Site的对应关系,第i个站点名称Sitei对应记录组List[Record]i;
步骤3、在步骤2得到的各个记录组中提取所有包含用户信息的Cookie项的名称,并保存至不同的用户信息Cookie项名称列表,第i个站点名称Sitei对应用户信息Cookie项名称列表list[user-Cookies]i;
步骤4、在步骤2得到的各个记录组中提取所有包含浏览网站的终端信息的Cookie项的名称,并保存至不同的终端信息Cookie项名称列表,第i个站点名称Sitei对应终端信息Cookie项名称列表list[terminal-Cookies]i;
步骤5、将步骤3得到的各用户信息Cookie项名称列表与步骤4得到的各终端信息Cookie项名称列表以站点名称Site作为等值连接的条件进行连接操作,得到各个站点名称Site的关键Cookie项名称列表,第i个站点名称Sitei对应关键Cookie项名称列表list[key-Cookies]i。
2.如权利要求1所述的一种用于Web会话聚合的关键Cookies识别方法,其特征在于,所述步骤3包括:
步骤3.1、利用正则表达式匹配同一记录组的所有Cookie项中是否有满足条件的邮箱信息,若有,则将包含该邮箱信息的Cookie项的名称放入与当前站点名称Site对应的用户信息Cookie项名称列表中,并进入步骤3.2,若无,直接进入步骤3.2,其中,所使用的正则表达式为:
″^([a-zA-Z0-9_\\.\\-])+\\@(([a-zA-Z0-9\\-])+\\.)+([a-zA-Z]{2,4})+$″;
步骤3.2、利用CookiePicker系统在同一记录组的所有Cookie项中识别出包含用户信息的Cookie项的名称放入与当前站点名称Site对应的用户信息Cookie项名称列表中。
3.如权利要求1所述的一种用于Web会话聚合的关键Cookies识别方法,其特征在于,所述步骤4包括:
步骤4.1、计算同一记录组中,各个Cookie项出现的频率:
步骤4.2、利用top-k思想,选取出现频率较高的几个Cookie项,将这些Cookie项放入与当前站点名称Site对应的终端信息Cookie项名称列表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学;上海云屹信息技术有限公司,未经东华大学;上海云屹信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410181682.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于铜阻挡层应用的掺杂的氮化钽
- 下一篇:图像处理装置