[发明专利]一种基于机器学习的学生贫困程度预测方法有效
申请号: | 201810972342.8 | 申请日: | 2018-08-24 |
公开(公告)号: | CN109145113B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 陈岩;俞跃舒 | 申请(专利权)人: | 北京桃花岛信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q10/04;G06Q50/20 |
代理公司: | 合肥中谷知识产权代理事务所(普通合伙) 34146 | 代理人: | 洪玲 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于机器学习的学生贫困程度预测方法,通过获取学生相关渠道的数据,将数据进行解析并计算出学生贫困的各种特征值,对缺失数值进行填补,并对数据进行标准化,映射到固定区间,后按照快速聚类算法,采用欧氏距离将数据聚集为多类,并计算每类对评价贫困程度的重要程度。对分类后每组数据组成的矩阵按照相关性分块,最终根据分块后的矩阵计算贫困综合得分,所述综合得分可以在贫困生资助时的资助金额决策时用以参考,其中分数越高说明越贫困,越需要资助。本发明还提出了若干方案用以快速发现异常的贫困生,和从数据中筛选贫困生致贫原因。 | ||
搜索关键词: | 一种 基于 机器 学习 学生 贫困 程度 预测 方法 | ||
【主权项】:
1.一种基于机器学习的学生贫困程度预测方法,其特征在于:包括以下步骤:步骤1,获取与学生贫困相关的数据;步骤2,数据解析,将数据分为非结构化的文本数据和结构化数据,将结构化数据直接存入数据库;步骤3,对缺失数据进行发现及填补;步骤4,对原始结构化数据进行标准化处理,使结果值统一映射到一个固定区间;步骤5,按照快速聚类算法,采用欧氏距离,将数据聚为k类:设第K个初始聚点的集合是记将样品分为不相交的k类,得到一个初始分类从初始类G(0)开始计算新的聚点集合L(1),计算得到一个新集合从L(1)开始再进行分类,记,得到一个新的类重复以上步骤m次得其中是类的重心;当m逐渐增大时,分类趋于稳定,同时可以近似地看做重心,即此时计算结束;或者,若对某一个m,与相同,则结束计算;步骤6,计算各聚类后各类别评价因素体系中每个因素对实现评价目标和功能的相对重要程度,并对计算结果进行检验,保证评价结论的可靠性;步骤6.1根据贫困因素汇总数据先分析相关系数矩阵,两个同向指标,即两个都为正指标或者负指标应正相关,相关系数应大于零;两个反向指标即一个正指标一个负指标,应负相关,相关系数应小于零;满足此对应关系的直接转入步骤7计算得分,不满足则转步骤6.2;步骤6.2对相关系数不符合上述原则的两个指标,将其分开,得到分块矩阵,对每一块分别进行主成分分析,若某一块的指标权系数仍不满足,重复步骤6.1,得到最终分块矩阵;步骤7,计算主成分综合评价得分:q为步骤6得出的最终分块矩阵数,第i(i=1,…,q)分块有ai个指标项,则第i分块的权重,综合得分Si为第i分块得分,若第i分块与总得分成负相关,则t=1,若第i分块与总得分成正相关,则t=0,Si求解方法如下:求解已标准化矩阵的相关系数矩阵R,rij(i=1,…,n,j=1,…,m)为R的i行j列元素,求解相关矩阵的特征值λi(i=1,2,…,s,s为特征值的总个数)与特征向量vi;计算贡献率按特征值大小依次排列,由特征向量组成新指针变量:其中y1是第一主成分,ys是第s主成分;计算主成分综合评价得分其中将每个学生对应的S进行排序,S越高表明困难程度越高,以S的值作为参考进行资助分配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京桃花岛信息技术有限公司,未经北京桃花岛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810972342.8/,转载请声明来源钻瓜专利网。