[发明专利]一种基于BERT模型的MOOC学习者认知行为识别方法在审
申请号: | 202110802482.2 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113505589A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 刘智;刘三女牙;杨宗凯;孔玺;陈浩;戴志诚 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/166 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 吴晓颖 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 模型 mooc 学习者 认知 行为 识别 方法 | ||
1.一种基于BERT模型的MOOC学习者认知行为识别方法,其特征在于该方法包括以下步骤:
(1)获取MOOC论坛中学习者讨论文本数据,生成MOOC评论领域的专业语料;
(2)将上述语料进行预处理,生成MOOC领域专业知识预训练数据;
(3)结合预训练数据,使用MLM和NSP策略对BERT模型进行再训练,得到MOOC-BERT;
(4)构建MOOC学习者认知行为标注数据集;
(5)使用标注数据集对MOOC-BERT中参数和权重微调,生成面向MOOC学习者的认知行为识别模型,该模型能有效识别出MOOC学习者互动话语中隐含的认知行为类型。
2.根据权利要求1所述的基于BERT模型的MOOC学习者认知行为识别方法,其特征在于步骤(1)所述的“生成MOOC评论领域的专业语料”具体包括:
(1-1)使用Python中request、re模块设计爬虫程序,将MOOC论坛中各类讨论数据下载到本地;
(1-2)合并所有数据后,进行去除html代码块、空行、无关字符清洗操作,形成包含MOOC领域专业知识的语料,保存为.txt文件。
3.根据权利要求1所述的基于BERT模型的MOOC学习者认知行为识别方法,其特征在于步骤(2)所述的“生成MOOC领域专业知识预训练数据”具体包括:
(2-1)按照单个字符切分句子,并将中文字符向量化表示;
(2-2)maxlength设置为256,即句子长度小于256时其余部分使用[PAD]符号填充,大于256的部分截断;
(2-3)每条句子随机遮蔽10%字词,遮蔽词80%替换为[MASK],10%不变,10%随机替换为其它词,最后生成.tfrecord文件保存。
4.根据权利要求1所述的基于BERT模型的MOOC学习者认知行为识别方法,其特征在于步骤(3)所述的“使用MLM和NSP策略对BERT模型进行再训练,得到MOOC-BERT”具体包括:
(3-1)预训练过程中使用MLM和NSP对模型的Embedding层、输出层的参数和权重联合训练;使用学习率逐层衰减方式进行训练,模型底层采用低学习率寻求最优解,模型顶层采用高学习率加速学习;在训练过程中,模型各层参数需要满足式(1):
首先模型的各个层级参数满足式(1),其中表示时间点n下模型第m层的参数,n为时间步长;λm表示学习率;为梯度表示;这时λm需要满足式(2):
λx-1=α×λx (式2)
其中α表示衰减指数,设为α=0.96;初始学习率设为2e-5,并按照固定迭代次数不断缩小学习率;
(3-2)使用交叉熵损失函数计算每次迭代过程中的Loss值,迭代至Loss值降到最低,最终,得到融合MOOC领域专业知识的BERT模型。
5.根据权利要求1所述的基于BERT模型的MOOC学习者认知行为识别方法,其特征在于步骤(5)所述的“使用标注数据集对MOOC-BERT中参数和权重微调”具体包括:
(5-1)将数据集按照训练集:验证集:测试集=6:2:2划分,文本数据序列前添加[CLS],句子结束的位置添加[SEP];
(5-2)在BERT输出层加上Softmax回归函数,使其输出认知行为标签,最后获得学习者认知行为识别模型,使用F值、准确度验证效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110802482.2/1.html,转载请声明来源钻瓜专利网。