[发明专利]一种基于机器学习的自动化平行组卷的方法及系统有效

专利信息
申请号: 202111213646.4 申请日: 2021-10-19
公开(公告)号: CN113656536B 公开(公告)日: 2022-02-08
发明(设计)人: 廖丽娜;朱智勇;彭海波;许利宁 申请(专利权)人: 深圳市菁优智慧教育股份有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33;G06F16/335;G06F16/338;G06F40/194;G06N3/04;G06N3/08;G06N20/00
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 杨丹;郝博
地址: 518000 广东省深圳市南山*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 机器 学习 自动化 平行 方法 系统
【权利要求书】:

1.一种基于机器学习的自动化平行组卷的方法,其特征在于,该方法包括:

S1,获取原始试卷;

S2,根据所述原始试卷中的题目,利用相似性算法,在候选题库中分别查询与每道题目相似度最高的一定数量的题目,组成第一题目列表;其中,包括:

利用相似性算法,根据每道题目的i2i向量,计算i2i向量之间的余弦相似度距离,根据所述余弦相似度距离,寻找到与当前题目相似度最高的一定数量的题目,组成第一题目列表;其中,

i2i向量的计算过程为:

获取单个用户连续多天组卷行为的频率低于预设组卷频率值的组卷数据;

在组卷数据中过滤掉用户选题频率超过预设选题频率值的组卷数据;

利用skip_gram模型训练i2i向量;

设定题目集合,其中包含出现超过一定次数的题目;

创建Embedding矩阵和Context矩阵,矩阵在词汇表中嵌入了每个单词,其中,question_size为第一维度, embedding_size为第二维度,第二维度是每次嵌入的长度:行数=题目表的大小,列数=题目向量的维度;

在训练过程开始时,利用随机值初始化矩阵;

在每个训练过程中,采用一个相邻的题目及其相关的非相邻题目作为样本数据,将相邻的题目作为正样本,非相邻的题目作为负样本;

在正样本的选取过程中,对于热门题目采用正样本降采样的采样方法,降低热门题目的正样本采样率;其中,热门题目是用于完成组卷的频次大于等于一设定值的题目;正样本采样率P(wi)的计算公式为:

式中,z(wi)表示第i个题目在所有试卷中出现的频率;

负样本采用候选题库,负样本采样率P(wi)的计算公式为:

式中,f(wi)为wi在试卷中出现的频率;wi为第i个item,即第i个题目;wj为第j个item,即第j个题目;n为候选题库总数量;

查看Embedding矩阵得到输入题目,查看Context矩阵得到上下文题目,计算输入题目的输入嵌入与每个上下文题目的上下文嵌入的点积,将点积带入sigmoid函数,获得skip_gram模型对于当前sample样本的模型预测值;

模型预测值域与实际的sample值有偏差,计算公式为:

error=target-sigmoid_scores

式中,error为偏差,target为训练样本的label,即样本实际的值;sigmoid_scores为模型预估的目标;

根据error值,利用梯度下降的更新方式,调整skip_gram模型的题目向量;

根据调整后的skip_gram模型得到题目的i2i向量;

寻找到与当前题目相似度最高的一定数量的题目的过程为:

向量搜索利用B-数的原理,构建题目向量搜索树,所述题目向量搜索树为m叉树,树的每个节点都是一个向量,向量空间按照m叉树的层次进行划分;

m叉树的生成方式包括:

m叉树的第n层,其中,根节点为第0层,n≥0,共有mn个节点;选取当前向量空间中mn的相互之间距离最远的题目向量组成;每个非叶子节点有m个子节点,选取与当前父节点距离最近的且没有被选取过的节点;m叉树的所有节点构成当前题库向量空间的所有向量;

搜索过程为:设置选择k个与当前向量相似的其它向量,其中,k≥2×m;

生成一个包含2×k个位置的小根堆,排序方式是目标题目的向量与向量空间中向量的余弦相似度,小根堆可以将序列内与当前向量位置最远的向量排到根节点上;

层次遍历题目向量搜索树,选取前2×k个向量加入小根堆,以当前小根堆内的节点为父节点,遍历题目向量搜索树中的子节点,并且将遍历到的子节点的向量加入到当前的小根堆中;

如果当前小根堆的总数超过了2×k,删除小根堆顶部的向量并且自动进行调整,直到重新变成一个小根堆;

在遍历完毕后,小根堆储存当前向量空间中与目标题目最接近的2×k个题目,排序后取出里面的k个题目;其中,排序的依据是将两道题目的题目向量之间进行点积操作,点积结果越大越相似,按照点积结果由大到小排序,选取前k个题目;

S3,对第一题目列表进行过滤,得到第二题目列表;

S4,根据用户对题目及包含题目的试卷的历史处理行为建立预测模型,利用所述预测模型对所述第二题目列表中题目的处理行为的概率进行预测;

S5,根据所述处理行为的概率计算题目评分,按照题目评分对第二题目列表的题目进行排序,选取排名靠前的一定数量的题目;

S6,根据所述一定数量的题目,对每种处理行为的概率分别进行排名,将排名转换为分数并融合排序,在融合排序后选取排名第一的题目组成平行试卷;

S7,根据用户对题目顺序的历史更改数据建立顺序调整模型,利用顺序调整模型调整所述平行试卷中试题顺序;

S8,将调整试题顺序后的平行试卷展示给用户,并根据用户的换题操作及顺序调整操作,得到最终试卷。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市菁优智慧教育股份有限公司,未经深圳市菁优智慧教育股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111213646.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top