[发明专利]数据项相关的高效用项集挖掘方法、装置及数据处理设备在审
申请号: | 201610854714.8 | 申请日: | 2016-09-27 |
公开(公告)号: | CN107870936A | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 林浚玮;甘文生;肖磊;陈伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司;哈尔滨工业大学深圳研究生院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙)44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据项 相关 高效 用项 挖掘 方法 装置 数据处理 设备 | ||
1.一种数据项相关的高效用项集挖掘方法,其特征在于,包括:
确定待处理项集在事务数据库中的支持度,及所述待处理项集的各数据项在所述事务数据库中的支持度;
根据所述待处理项集在事务数据库中的支持度,及所述待处理项集的各数据项在所述事务数据库中的支持度,确定所述待处理项集的项集相关度;
确定所述待处理项集的项集效用值;
若所述待处理项集的项集效用值不小于设定的最低效用阈值,且所述待处理项集的项集相关度不小于预定的最低相关度阈值,则确定所述待处理项集为数据项相关的高效用项集。
2.根据权利要求1所述的数据项相关的高效用项集挖掘方法,其特征在于,所述确定待处理项集在事务数据库中的支持度包括:
确定待处理项集对应的目标事务的数量,与事务数据库中总事务数量的比值,将所确定的比值确定为所述待处理项集在事务数据库中的支持度,其中,所述待处理项集对应的目标事务是包含所述待处理项集的所有数据项的事务;
所述确定所述待处理项集的各数据项在所述事务数据库中的支持度包括:
针对所述待处理项集的各数据项,确定包含该数据项的事务数量与事务数据库中的总事务数量的比值,将所确定的比值确定为所述待处理项集中该数据项在所述事务数据库中的支持度。
3.根据权利要求1或2所述的数据项相关的高效用项集挖掘方法,其特征在于,所述根据所述待处理项集在事务数据库中的支持度,及所述待处理项集的各数据项在所述事务数据库中的支持度,确定所述待处理项集的项集相关度包括:
确定所述待处理项集在事务数据库中的支持度,分别与所述待处理项集的各数据项在数据库中的支持度的商值;
将所确定的各商值相加,得到商值的加和;
将得到的商值的加和除以所述待处理项集的数据项个数,得到所述待处理项集的项集相关度。
4.根据权利要求1所述的数据项相关的高效用项集挖掘方法,其特征在于,所述确定所述待处理项集的项集效用值包括:
确定所述待处理项集在所对应的各目标事务中的效用值;其中,所述待处理项集在一目标事务中的效用值表示,所述待处理项集的各数据项在该目标事务中的效用值的加和;所述待处理项集的一个数据项在一目标事务中的效用值表示,该数据项在该目标事务中的内部效用值乘以该数据项的单位外部效用值;
将所述待处理项集在所对应的各目标事务中的效用值的相加和,得到所述待处理项集的项集效用值。
5.根据权利要求4所述的数据项相关的高效用项集挖掘方法,其特征在于,所述设定的最低效用阈值的确定过程包括:
根据最低效用阈值表,确定所述待处理项集中各数据项的最低效用阈值,所述最低效用阈值表记录有各数据项对应的最低效用阈值;
将所述待处理项集中各数据项的最低效用阈值中的最小最低效用阈值,确定为所述待处理项集对应设定的最低效用阈值。
6.根据权利要求1所述的数据项相关的高效用项集挖掘方法,其特征在于,所述方法还包括:
若包含一个数据项的项集按照支持度从小到大排序,且一个项集的项集相关度小于预定的最低相关度阈值,则确定该项集的超集均不是数据项相关的高效用项集;其中,一个项集的超集包含该项集的所有数据项。
7.根据权利要求1所述的数据项相关的高效用项集挖掘方法,其特征在于,所述方法还包括:
在挖掘出包含一个数据项的相关的高效用上界项集后,基于伪投影技术挖掘出以各个包含一个数据项的相关的高效用上界项集为前缀的所有扩展项集,将各扩展项集以挖掘顺序依次的确定为待处理项集;其中,当项集的事务加权效用不小于设定的最低效用阈值,且该项集的项集相关度不小于预定的最低相关度阈值,则该项集为相关的高效用上界项集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司;哈尔滨工业大学深圳研究生院,未经腾讯科技(深圳)有限公司;哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610854714.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索方法及装置
- 下一篇:邮箱数据的清理方法和装置