[发明专利]一种从Web点击流数据中挖掘代表序列模式的方法有效
申请号: | 202110096836.6 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112765469B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 赵宇海;汪嗣尧;王若飞;马生俊;印莹 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/957;G06F16/901 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 点击 数据 挖掘 代表 序列 模式 方法 | ||
本发明提供一种从Web点击流数据中挖掘代表序列模式的方法,涉及序列模式挖掘技术领域。该方法首先输入Web点击流序列数据集、最小支持度和最大覆盖度,并遍历一次数据集保留不小于最小支持度的所有频繁站点作为序列生成种子;对每一个序列生成种子采用缝隙扩展枚举树,结合缝隙扫描剪枝策略和闭合检查得到该种子的所有频繁闭合超序列;进一步采用局部代表序列筛选技术选出该种子的所有代表序列;遍历所有序列生成种子,输出每个种子的代表序列,得到Web点击流数据的所有代表序列模式。优点是:代表序列模式能有效解决频繁序列模式数量庞大而可用性低的矛盾,能增强结果的可用性;为Web点击流的在线用户行为分析、信息推荐、引擎优化等应用提供参考。
技术领域
本发明涉及序列挖掘技术领域,尤其涉及一种从Web点击流数据中挖掘代表序列模式的方法。
背景技术
序列数据中的频繁序列在商业领域如Web点击流数据分析、顾客购物习惯分析、日志数据分析等有着广泛的应用,例如从某商品销售序列中挖掘出频繁序列模式“薯片、可乐”可知,许多用户在购买“薯片”之后经常会购买“可乐”。因此可向已购买“薯片”的顾客推荐“可乐”,提高商品的销量。序列模式挖掘不仅可以应用到商业领域,现已广泛地应用到很多其他领域,如交通出行模式分析、科学实验过程分析、自然灾害预测分析、疾病药物诊断分析、生物信息数据分析等。其中,Web点击流数据分析对在线用户行为分析、搜索引擎优化、信息精准推荐等领域发挥着重要作用,是当前研究的一个热点。
Web点击流数据可通俗地理解为用户在互联网中浏览Web站点的日志数据,这些日志数据记录了用户依次访问的Web站点序列,该序列数据的每一项代表一个或一类Web站点。因此,Web点击流数据通常被视为一类序列数据。但随着序列数据的规模越来越大,频繁序列模式挖掘产生的频繁序列模式结果数量呈爆炸式增长,庞大的结果数量给分析理解这些结果造成了极大的困难。因此如何减少频繁序列模式挖掘的结果数量一直是数据挖掘关注的课题。
高效的挖掘方法是实现序列模式挖掘任务的核心和关键,根据不同的应用领域与多样的数据特征,研究者们提出了多种普适的或专用的挖掘方法从序列数据中挖掘有意义的序列模式。
对Web点击流数据而言,从被挖掘的序列模式角度,将现有的主流挖掘方法大致分为以下几种:
一、面向频繁序列的方法:频繁序列是指该序列的访问频度SA,即支持度,不小于用户指定最小支持度阈值(minSup)的序列,即SA≥minSup。频繁序列是序列模式挖掘的基础,几乎所有的相关挖掘方法都属于该类方法。但是,该方法难以预设一个合适的最小支持度,通常依赖领域专家知识而设定;或大或小的最小支持度直接影响挖掘结果数量的多与少,支持度过小会导致结果的数量非常大,支持度过大通常仅能挖掘到平凡的结果,从而不仅造成实施代价过大,而且导致挖掘结果的可用性较低。频繁序列模式挖掘的一个重要特征是,频繁序列模式的所有子序列模式也都是频繁序列模式。为使结果更加紧凑减少结果数量,目前主要定义了极大频繁序列模式、频繁闭序列模式。
二、面向极大频繁序列的方法:一个频繁序列模式是极大频繁序列模式,当且仅当该序列模式的任何超序列模式都不是频繁序列模式,即A是频繁序列模式,满足SA≥minSup,并且不存在频繁序列A的其他超序列B使得序列A被序列B包含并且SB≥minSup成立。可以看出,极大频繁序列是频繁序列的子集,在最小支持度一定的情况下,极大频繁序列的挖掘方法能够有效地减少结果的数量。然而,面对数量巨大的数据集,极大频繁序列挖掘仍然会得到数量相当大的结果。但是,极大频繁序列模式是对频繁序列模式的一种有损压缩,因为该方法会丢失除极大频繁序列模式外其他序列模式的支持度信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110096836.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置