[发明专利]一种基于日志挖掘的网站分类目录优化分析方法有效
申请号: | 201410201968.0 | 申请日: | 2014-05-13 |
公开(公告)号: | CN105095281B | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 吴鹏;张丽军;李小军;夏子然;丁慧君;高庆宁 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于日志挖掘的网站分类目录优化分析方法。该方法首先对网站日志数据进行预处理,所述日志数据指的是服务器上记录的一系列网页访问数据集合,通过预处理从中提取出用户通过特定网站获取信息的目录路径;然后利用“基于浏览路径顺序的方法VOB”计算任意两个目录路径间的相似度,直至构造出目录路径相似度矩阵;再利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类,从而将目录路径对应的用户聚为不同类别;最后,挖掘出每类用户期望的网站分类目录体系,并与原有分类目录体系对比分析。通过上述步骤可以挖掘出符合用户期望的网站分类目录体系,为网站优化提供定量决策支持。 | ||
搜索关键词: | 一种 基于 日志 挖掘 网站 分类目录 优化 分析 方法 | ||
【主权项】:
1.一种基于日志挖掘的网站分类目录优化分析方法,其特征在于,步骤如下:步骤1、对网站日志数据进行预处理,具体为:步骤1‑1、对日志数据字段进行净化处理,具体是将原始日志数据中的请求协议字段、文件名字段这些与挖掘目的不相关的字段删除,最终保留用户的IP地址IPNUMBER、访问时间VISIT‑TIME、浏览者的cookie信息COOKIE、访问网址URL、访问状态STATUS以及当前访问网址的来源网址REFERER;步骤1‑2、对日志内容进行净化,具体为:判断访问状态STATUS的属性值,若属性值不以2、3开头,则删除该属性值对应的日志项:之后判断访问网址URL和当前访问网址的来源网址REFERER中是否包含字符串“‑catalog”或“catlist”,若均没有包含,则删除该属性值对应的日志项;步骤1‑3、对网址进行统一编号,具体为:将日志中涉及的访问网址URL、当前访问网址的来源网址REFERER按出现次序用阿拉伯数字从小到大统一编号,若同一网址出现多次则按网址第一次出现的次序编号;步骤1‑4、建立网址目录对应关系,具体为:分析日志项中访问网址URL和当前访问网址的来源网址REFERER中的字符串,若存在“‑catalog”字符串且“‑catalog”字符串与.html间存在“/”,则.html与最近的一个“/”之间的字符串即为网址所在目录名称;若存在“‑catalog”字符串且“‑catalog”字符串与.html间不存在“/”则“‑catalog”字符串与其左侧最接近的“/”之间的字符串即为网址所在目录名称;若存在字符串“catlist”则.html与最近的一个“/”之间的字符串即为网址所在目录名称;新建表格记录网址与所在目录的对应关系;步骤1‑5、对用户进行识别,判断日志项中是否包含浏览者的cookie信息COOKIE,若包含则认为同一个浏览者的cookie信息COOKIE代表同一个用户,否则认为同一个IP地址IPNUMBER代表同一用户;对识别出的用户按出现次序用阿拉伯数字从小到大编号;步骤1‑6、对会话路径进行识别,具体为,分析日志项中同一个用户访问时间VISIT‑TIME,若访问时间VISIT‑TIME差在30分钟以内则将对应的日志项提取为一个会话路径并用阿拉伯数字将会话路径从小到大统一编号,会话路径提取格式为:会话路径编号、用户、访问网址URL及访问网址对应的访问时间VISIT‑TIME;步骤1‑7、对事务路径进行识别,具体为,若同一个会话路径中同一个访问网址URL出现次数为n次且n大于1,则将会话路径分为n个,其中在该访问网址URL第二次出现前的会话路径为第一个事务路径;删除会话路径中该访问网址URL第一次和第二次出现间的其他访问网址URL且只保留一个该访问网址URL,则会话路径中该访问网址URL第三次出现之前的会话路径为第二个事务路径;以此类推直至会话路径中所有访问网址URL只出现一次为止;步骤1‑8、对网站分类目录进行编码,具体为,按网站分类目录所在层级以及目录间的从属关系统一用阿拉伯数字编号;步骤1‑9、将事务路径转化为目录路径,具体为,基于步骤1‑4中的网址目录对应关系,找出事务路径中每个网址对应的目录,并用目录代替事务路径中对应的网址;若事务路径中每个网址转为对应的目录后,存在同一目录连续出现次数大于1的情况,则最终保留一个目录;步骤2、利用“基于浏览路径顺序的方法VOB”确定任意两个目录路径之间的相似度,构造目录路径相似度矩阵,所述目录路径相似度矩阵的第一行和第一列为步骤1‑9中转化后的所有目录路径,其余均为行对应目录与列对应目录之间的相似度;步骤3、利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类,根据目录路径的相似度将对应的用户聚类直到所有类别的凝聚度都不小于0.95为止;步骤4、基于“路径搜索法Pathfinder”挖掘出每类用户期望的目录体系,并与原有分类目录体系对比分析,给出网站分类目录的具体优化建议。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410201968.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种客户端数据的采集方法和装置
- 下一篇:文件推荐方法和装置