[发明专利]一种基于K-聚类算法的学科选择推荐方法在审

申请号：	202110247202.6	申请日：	2021-03-05
公开（公告）号：	CN113051469A	公开（公告）日：	2021-06-29
发明（设计）人：	鲁仁全;蔡展锐;任鸿儒;王志宏;张子荣	申请（专利权）人：	广东工业大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06K9/62
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510090 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于算法学科选择推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于K-聚类算法的学科选择推荐方法，其特征在于，所述方法包括以下步骤：

S1：获取调查对象的个人信息；

S2：将所述个人信息转化为样本数据y_i，组成样本数据集Y；

S3：对样本数据y_i进行预处理，获得预处理样本数据x_i；

S4：利用K-means++算法对预处理样本数据进行分析，选取出k个初始聚类中心；

S5：计算每个预处理样本数据到每个初始聚类中心的欧式距离，按照最小距离原则，将每个预处理样本数据分配到距离最近的初始聚类中心；

S6：分配完成后，计算每个初始聚类中心内分配的预处理样本数据到该初始聚类中心的欧氏距离的均值点，将均值点作为新聚类中心；

S7：确认每个新聚类中心与初始聚类中心的位置是否相同；若位置相同，执行S8；若位置不相同，将新聚类中心更新为初始聚类中心，重复步骤S5-S6，直到位置不再变化；

S8：将位置不再变化的新聚类中心作为最终聚类中心，获得最终聚类中心所处的簇；所述簇根据学科设置；

S9：计算样本数据与每个最终聚类中心的欧氏距离，将样本数据分配到欧氏距离最近的最终聚类中心，输出该最终聚类中心所处的簇对应的推荐学科。

2.根据权利要求1所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S1中，调查对象为不同学校不同专业的毕业生和在校生；所述个人信息包括调查对象的性别、年龄、学历、专业、学习习惯、个人性格和选择动机；

调查对象的性别分为男和女；调查对象的学历分为本科和分本科；调查对象的专业分为理科类、工科类和文科类；调查对象的学习习惯分为偏向钻研和偏向记忆记；调查对象的调查对象的分为偏向理性和偏向感性；调查对象的选择动机分为偏向就业、偏向薪资和偏向前景。

3.根据权利要求2所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S2中，将个人信息转化为样本数据的具体方法为：调查对象的性别为女记为0，调查对象的性别为男记为1；调查对象的学历为本科记为3，调查对象的学历为非本科记为4；调查对象的专业为理科类记为5，工科类记为6，文科类记为7；调查对象的学习习惯偏向钻研记为8，偏向记忆记为9；调查对象的个人性格偏向理性记为10，偏向感性记为11；调查对象的选择动机偏向就业记为12，偏向薪资记为13，偏向前景记为14。

4.根据权利要求3所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S3中，对样本数据进行预处理具体包括：去除重复的样本数据、去除无关的样本数据、去除错误的样本数据、去除或补全缺失的样本数据、样本数据离差标准化。

5.根据权利要求4所述的基于K-聚类算法的学科选择推荐方法，其特征在于，预处理中，样本数据离差标准化的具体方法为：将样本数据集Y中的样本数据y_i变换到区间[a，b]内，则：

其中，x_i为预处理样本数据，y_i为样本数据，Y为样本数据集，a为变换区间的最小值，b为变换区间的最大值。

6.根据权利要求5所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S4中，选取出k个初始聚类中心的具体方法为：

S4.1：随机选择一个预处理样本数据作为第一初始聚类中心；

S4.2：计算每个预处理样本数据x_i到第一初始聚类中心的距离D(x_i)；

S4.3：根据D(x_i)计算每个预处理样本数据x_i的选择概率P(x_i)；

S4.4：根据选择概率P(x_i)计算每个预处理样本数据x_i的累积概率Q(x_i)，并生成一个随机数r，选出第二初始聚类中心；

S4.5：重复步骤S4.4，直到选取出k个初始聚类中心。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】