[发明专利]一种基于行为时序权重的分布式FP-Growth成绩预警模型有效
申请号: | 202011337949.2 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112668750B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 陈伟宁 | 申请(专利权)人: | 紫光云技术有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/20;G06F18/26 |
代理公司: | 天津滨海科纬知识产权代理有限公司 12211 | 代理人: | 刘莹 |
地址: | 300459 天津市滨海新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 行为 时序 权重 分布式 fp growth 成绩 预警 模型 | ||
1.一种基于行为时序权重的分布式FP-Growth成绩预警方法,其特征在于,包括:
使用关联规则挖掘成绩信息方法,用于将学生在网络上行为特征进行分类,结合不同时间段以及学生信息生成学生样本数据;
使用行为时序权重提高预测准确度,用于对于任意未知学生,提取其行为数据和附加属性,与强关联规则进行对比,然后得出其成绩的预测概率;
使用分布式架构提高挖掘速度;
所述使用关联规则挖掘成绩信息方法包括:
数据选择:首先将学生在网络上行为特征进行分类,选取学生样本作为数据源,在对行为特征进行类别划分时,对出现过的行为类别进行编号;
在选择学生数据时,选择成绩优秀和成绩差的学生作为数据源;
进行时间段划分:以天为单位将时间分为具有代表性的多个时间段,统计每天不同时间段的各种行为的出现情况,同时考虑到学生行为类别可能会随着时间推移而发生波动,因此将信息每几周分为一个大阶段;
将包括学生信息、时间段、行为类别和成绩信息的数据使用编号表示,依次统计全部学生的上述信息,形成多个包括学生数据的编号,即为获取了学生样本数据,在获取学生样本数据后,依照频繁项挖掘规则,设置初始的最小支持度Supmin,使用FP-Growth算法挖掘学生样本数据中每一个时间段的频繁项;
根据约束条件,筛选出所有符合条件的频繁项集:设置最小置信度Confmin和最低Kulc参数Kulcmin,依据Confmin筛选频繁项集中以Good类成绩或Bad类成绩为后继的强关联规则,并在规则中依据Kulcmin进行第二次筛选,则可得到所有强关联规则;
最终得到的包含Good类成绩和Bad类成绩强关联规则的任意一组表示形式如下:
;
式中TG和TB分别表示不同成绩出现的行为类别项集,AttrG和AttrB分别表示成绩不同时的性别和历史挂科记录,式中每一项都有其相对应的置信度和Kulc参数:
((ConfG1,KulcG1),…, (ConfGn,KulcGn), (ConfB1,KulcB1),…, (ConfBm,KulcBm));
所述使用行为时序权重提高预测准确度包括:对于任意未知学生,提取其行为数据和附加属性,与强关联规则进行对比,然后得出其成绩的预测概率,过程如下:
提取任一学生的所有组行为及属性数据,依据最小支持度Supmin挖掘其全部频繁项,并将其中的成绩项隐去,记为:
((T1,Attr1), (T2,Attr2),…, (T48,Attr48));
将每一组频繁项与已得出的强关联规则中的数据进行对比匹配,优先匹配其中Kulc参数较高者,得出该组与Good类、Bad类的置信度和Kulc参数为:
((ConfG,KulcG), (ConfB,KulcB));
若某频繁项匹配到置信度及Kulc参数较高的Good类强关联规则,则匹配到Bad类强关联规则的几率较小,反之亦然,因此若未匹配到,则将其中的置信度置0,Kulc参数置为平均值0.5,即得到((ConfG,KulcG), (0,0.5))或((0,0.5) ,(ConfB,KulcB));
此时定义大阶段中每一个阶段的Good类和Bad类成绩预测概率为:
;
;
两式中i是每天总时段的其中一段,n是时段总数,Confi是每一项的Good类或Bad类的置信度,Kulci是每一项的Good类或Bad类的Kulc参数,在此当作每一项的权重,称为Kulc相关性时序权重;
同时,考虑到学生行为在学期内每个大阶段存在一定的差异性,因此将这些阶段分别赋予不同的权重,得出最终的计算公式为:
;
;
两式中j是总阶段中的其中一段,m是阶段总数, Pj是每一阶段计算出的Good类或Bad类预测概率,wj是每一项的阶段时序权重;
至此,可以得出该未知学生的成绩优秀预测概率PtotalG和成绩预警预测概率PtotalB。
2.根据权利要求1所述的一种基于行为时序权重的分布式FP-Growth成绩预警方法,其特征在于:使用Spark分布式计算框架来提高挖掘速度,以Spark中的RDD机制进行分片,并在每一个小区域内进行FP-Tree的挖掘,最终整合为整棵FP-Tree。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于紫光云技术有限公司,未经紫光云技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011337949.2/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理