[发明专利]一种结合短文本聚类和推荐机制的主观题批阅系统及方法有效
申请号: | 201810499529.0 | 申请日: | 2018-05-23 |
公开(公告)号: | CN108763411B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 余胜泉;段庆龙;卢宇 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/242;G06F40/289;G06F40/30;G06Q50/20 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 文本 推荐 机制 主观题 批阅 系统 方法 | ||
1.一种结合短文本聚类和推荐机制的主观题批阅系统,其特征在于:所述批阅系统包括数据预处理模块、聚类分析模块、推荐可视化模块以及批阅数据库;其中:
数据预处理模块:对教师提交到批阅数据库的学生的答案文本进行预处理,包括:使用预先构建的词典资源对答案文本进行分词,然后将答案文本转化为一个词的序列;利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词;查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果;将处理后的答案文本进行词汇向量化的表示,通过对词向量进行累加求均值,构建词对答案文本的表示;
聚类分析模块:在教师进行批阅之前,采用短文本聚类算法对经过数据预处理模块预处理的答案文本进行聚类,依据计算出的平均轮廓系数选择出最优的聚类簇的个数;将聚类的最优结果存入批阅数据库的聚类结果表中;依据聚类内每条答案的轮廓系数大小进行排序,将排序结果发送给老师进行批阅,最后将批阅的结果存入批阅数据库;
推荐可视化模块:在批阅过程中,计算当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度,将相似度较高的答案作为批阅的参考标准向老师做可视化推荐,当前正在批阅的答案批阅完成后,使用该相似度较高的答案作为推荐答案更新答案相似度推荐表;
批阅数据库:包括答案存储表、答案聚类结果表,答案相似度推荐表;答案存储表包括两部分:一个是所要收集的题目数据表,存储的是教师布置的每个题目的编号,题目内容,题目所涉及的科目,年级,发布者,发布时间,题目的难易程度;二是答案数据表,存储的是题目的编号,学生的id,学生的答案内容,教师的评分;答案聚类结果表存储聚类的结果,其中包含如下字段,题目的编号,学生的id,答案所对应的轮廓系数,答案所属的类别簇;通过学生id可以在答案聚类结果表中找到答案所对应的类别簇,并在答案存储表中找到学生的答案;答案相似度推荐表,存储的字段是每一条答案与相同类别簇中已经批阅的答案中最相近的两条答案,有如下三个字段:答案对应的学生id、最相似答案的学生id、次相似的答案的学生id;通过答案对应的学生id在答案存储表中找到对应的答案,推荐到前端可视化模块,提示老师相似答案的评分标准。
2.一种基于权利要求1所述主观题批阅系统的主观题批阅方法,其特征在于,包括步骤:
步骤(1)对教师提交到批阅数据库的学生的答案文本进行预处理,包括:使用预先构建的词典资源对答案文本进行分词,将答案文本转化为一个词的序列;利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词;查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果;将处理后的答案文本进行词汇向量化的表示,通过对词向量进行累加求均值,构建词对答案文本的表示;
步骤(2)在教师进行批阅之前,采用短文本聚类算法对经过预处理的答案文本进行聚类,依据计算出的平均轮廓系数,选择出最优的聚类簇的个数;将聚类的最优结果存入批阅数据库的答案聚类结果表中;依据聚类内每条答案的轮廓系数大小进行排序,将排序结果发送给老师进行批阅,最后将批阅的结果存入批阅数据库;
步骤(3)在批阅过程中,计算当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度,将相似度较高的答案作为批阅的参考标准向老师做可视化推荐,当前正在批阅的答案批阅完成后,使用该相似度较高的答案作为推荐答案更新答案相似度推荐表;
所述步骤(2)中平均轮廓系统计算如下:
首先计算点i的轮廓系数S(i):S(i)=b(i)-a(i)/Max{a(i),b(i)},i为聚类簇中的一个点的向量表示,a(i)=average(i向量到所有它属于的簇中其它点的距离),average为取平均值;计算b(i)=Min(i向量到所有非本身所在簇的点的平均距离);Min为取最小值,Max为取最大值;然后计算平均轮廓系数,平均轮廓系数为所有点的轮廓系数的和取平均;
所述步骤(3)中当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度计算如下:计算当前正在批阅的答案a与答案相似度推荐表中已批阅的所有答案之间的相似度,找到相似度最大的两条答案a1、a2且满足Min(sim(a,a1),sim(a,a2))θ;其中,Min为取两个计算结果中较小的那一条答案,θ为相似度的阈值,必须大于这个值时,才能作为批阅时相似的参照答案进行推荐,sim()计算两条文本相似度使用的算法为WordMoveDistance算法,该算法利用欧氏距离分别计算两个文本中的各个词的词向量表示之间最大相似度的值,然后累加求和,得到两条文本之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810499529.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子文件的打开方法及装置
- 下一篇:一种法学案例及法条储存查询系统