[发明专利]一种基于K-means聚类与XGBoost算法的心理预判方法及系统在审
申请号: | 202011467838.3 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112530546A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 邵亚斌;韩雨彤;胡梦圆;李雪莲;钟义菊;方艺添 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16H20/70 | 分类号: | G16H20/70;G16H50/20;G16H50/70;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 means xgboost 算法 心理 方法 系统 | ||
1.一种基于K-means聚类与XGBoost算法的心理预判方法,其特征在于,包括以下步骤:
采集学生的在校行为数据,以学生行为数据作为分类标签,记录数据,并对学生行为数据进行包括做重复值、缺失值、噪声值处理以及类型变换在内的数据预处理;
对于离散性特征,使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点;
采用K-means算法聚类分割成三类数据集,分别为label1:较大可能存在心理隐患;label2:存在心理隐患,但可能性不明显;label3:不存在心理隐患;
选取label1为‘较大可能存在心理隐患’的样本类,采用XGBoost算法进行有监督学习的分类得出XGBoost预测模型,将新个体的行为数据输入建立的XGBoost预测模型得出心理预判结果,并对参数进行调节,进行XGBoost预测模型测试,得出模型的准确度。
2.根据权利要求1所述的一种基于K-means聚类与XGBoost算法的心理预判方法,其特征在于,所述个体在校行为数据包括:
基本信息数据、成绩数据、课堂数据、一卡通数据、宿舍出入数据、图书馆出入与借阅数据、校园活动数据。
3.根据权利要求2所述的基于K-means聚类与XGBoost算法的心理预判方法,其特征在于,所述基本信息数据包括:性别、专业、年龄、籍贯、兴趣爱好;所述成绩数据包括:必修课/选修课成绩、课程平时成绩;所述课堂数据包括:课堂出勤情况、作业完成情况;所述一卡通数据包括:食堂消费金额,食堂消费类目,食堂消费时间;打水时间;淋浴消费金额,淋浴消费时间;超市消费金额,超市消费类目,超市消费时间;一卡通卡内余额;所述宿舍出入数据包括:宿舍出入时间,宿舍出入地点;所述图书馆出入与借阅数据包括:图书馆出入时间,图书借阅名称,图书借阅时间,图书归还时间;所述校园活动数据包括:班级任职情况,校内组织任职情况;勤工俭学时间,勤工俭学工资;每学期奖惩情况;课外活动积分值。
4.根据权利要求2所述的基于K-means聚类与XGBoost算法的心理预判方法,其特征在于,所述预处理步骤具体为:重复值处理、缺失值处理、噪声值处理以及类别变换。
重复值处理包括:用duplicates函数进行重复值删除,参数解释如下:
subset:列名,默认所有的列;
keep:是否保留{‘first’,‘last’,False},keep='first'表示去重时每组重复数据保留第一条数据,其余数据丢弃;keep='last'表示去重时每组重复数据保留最后一条数据,其余数据丢弃;keep=False表示去重时每组重复数据全部丢弃,不保留;
inplace:是否替换{False,True},inplace=False表示去重之后不覆盖原表格数据,inplace=True表示去重之后原表格数据被覆盖。
缺失值处理包括:查看缺失情况、以指定值填补缺失值;
噪声值处理包括:同时采用盖帽法处理噪声值、分箱法处理噪声值;
类型变换包括:通过LabelEncoder来进行快速的转换:通过mapping方式,将类别映射为数值。不过这种方法适用范围有限;通过get_dummies方法来转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011467838.3/1.html,转载请声明来源钻瓜专利网。