[发明专利]一种基于活动序列的学生社交关联分析方法在审
申请号: | 202010303786.X | 申请日: | 2020-04-17 |
公开(公告)号: | CN111583048A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 尹宝才;李新海;张勇;周菲菲;韩昊知;方略 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06Q50/20 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 活动 序列 学生 社交 关联 分析 方法 | ||
1.一种基于活动序列的学生社交关联分析方法,其特征在于:输入为高校内学生的多源活动数据集,输出为该多源活动数据集中全体学生的社交关系网;包括以下步骤:
(1)将从高校服务器中导出的学生校园内的多源数据提取到本地电脑中,对学生多源数据分别进行数据清洗,然后合并为一个数据集,使用该数据集对每一位学生生成对应的学生活动序列;
(2)从数据集中依次选择两个不同的学生活动序列输入到社交关联分析模型中进行计算,输出这两个学生的社交关联强度值;
(3)对数据集中的所有学生全部进行两两学生计算社交关联强度后,把学生比作图中的节点,社交关联强度值作为无向图的权重,则可以构建成一个由无向图代表的社交关系网。
2.根据权利要求1所述的一种基于活动序列的学生社交关联分析方法,其特征在于:所述步骤(1),具体包括以下步骤:
(1-1)从高校服务器中导出学生校园活动的多源数据到本地电脑中,对这些数据全部进行数据清洗,去掉数据集中错误、缺失、重复影响生成学生活动序列的数据;
(1-2)对清洗过后的数据合并为一个数据集,从中提取出所有的学生活动地点,分别对活动地点进行对应的编号;
(1-3)在数据集中增加一列时间戳属性,根据该数据集中每条活动记录的日期和时间,生成对应的时间戳,并分别提取出最小的时间戳数值保存;
(1-4)在数据集中只需提取出学生的学号,活动地点,时间戳三列数据,并把活动地点那列的数据使用(1-2)中对应的编号代替,然后按照学号,时间戳进行升序排列;
(1-5)把数据集中同一个学号的活动记录按照指定的时间段τ进行分割排列,从(1-3)中提取的最小时间戳数值为起点开始,对于遇到学生在某个时间段内没有活动记录,则表示为该时间段内未知,用“N”进行填充,在有活动记录的时间段内使用“地点编号:时间戳”的格式进行填充,直到通一个学号的学生活动记录结束为止,则某一个学生生成了对应的活动序列;
(1-6)按照(1-5)的步骤,依次对数据集中的不同学号的活动记录进行有序生成活动序列。
3.根据权利要求1所述的一种基于活动序列的学生社交关联分析方法,其特征在于:所述步骤(2),具体包括以下步骤:
(2-1)从所有的学生活动序列中进行两两配对,从中选择其中一对学生活动序列进行输入;
(2-2)从该对学生活动序列起点开始进行检索,依次遍历学生活动序列中的两个时间段,当该对学生活动序列中出现在对应的时间段或者是相邻的时间段内出现同一个地点编号,则这种情况定义为时空同现,则从中提取出本次时空同现的四个不同特征,计算出本次时空同现的社交强度;
(2-3)计算该对学生所有的时空同现的社交强度并相加求和;
(2-4)提取该对学生的在校天数,让(2-3)中的社交强度之和除以该对学生中最小的在校天数;
(2-5)计算该对学生的时空同现次数,如果小于指定的阈值,则认为该对学生不具有社交关系,直接舍弃,停止后续计算;
(2-6)分别计算这两位学生的校内地点的活跃度;
(2-7)计算该对学生的时空同现的地点多样性;
(2-8)计算该对学生最终的社交关系强度值。
4.根据权利要求1所述的一种基于活动序列的学生社交关联分析方法,其特征在于:所述步骤(3),具体包括以下步骤:
(3-1)根据数据集中的学生,把每个学生看作为一个节点,构建一个无向图;
(3-2)输入每对学生之间的社交关系强度值作为无向图边的权重,则最终构成学生的社交关系网。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010303786.X/1.html,转载请声明来源钻瓜专利网。