[发明专利]一种基于多标签分类卷积神经网络的题目推荐方法有效
申请号: | 201910541695.7 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110347791B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 袁锦杰;蔡瑞初;郝志峰;温雯;王丽娟;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06N3/0464 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 分类 卷积 神经网络 题目 推荐 方法 | ||
1.一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,包括以下步骤:
步骤S1:获取若干题目以及考点集合作为样本实例,对每个题目的考点标签进行标注,将标注好的题目保存作为题库;
步骤S2:获取题库中各个题目的一组关键词,训练出所有关键词的词向量;
步骤S3:计算关于标签的局部相关性矩阵求得标签间的局部相关性,根据标签间的局部相关性,用寻找与匹配高相关标签对的方法增加训练集;
步骤S4:构建一维卷积神经网络,一维卷积神经网络的输入层为一道题目的关键词的词向量,一维卷积神经网络的输出层为考点标签的预测值,将标签间的局部先关矩阵的有效元素作为神经元加入至一维卷积神经网络中的第一个全连接层,对一维卷积神经网络进行训练并选出最优模型;
步骤S5:将新题目输入到最优模型的一维卷积神经网络中,输入考点标签的预测值,根据考点特征用聚类方法将所有题目进行分类,获得与该题目考点相似的其他题目,将其作为推荐题目;
在步骤S1中,若一道题目包含某一考点,则将该样本实例对应的考点标签值设为1,否则设为0;
在步骤S3中,令lt和lz为任意两个考点标签,将lt和lz的局部相关性定义为:
其中,n(lt∩lz)表示该两个标签都为1的题目个数,n(lt∪lz)表示两个标签中至少有一个值为1的题目个数,求出所有每两个标签的局部相关性,得到一个对角元素为1的对称矩阵C,标签与其自身的相关性是1,基于矩阵C再用寻找与匹配高相关标签对的方法增加训练集;
寻找高相关标签对的方法包括以下步骤:
设置一个局部相关性阈值g,对于每一个样本实例,列出标签值为1的所有标签,再两两配对,若标签对的两个标签局部相关性小于g,则淘汰该标签对;否则保留,并将其视为高相关标签对,这样每个样本都能对应0个到多个的高相关标签对;
匹配高相关标签对的方法包括以下步骤:
对于所有题库的每一个高相关标签对,遍历样本实例中所有的高相关标签对,寻找与其相同的标签对,若两个标签对匹配成功,令标签对都为(lu,lv),则选择它们各自所属的两个样本实例作为算术平均值以生成新的正类实例,该实例的lu和lv标签值都为1,将新实例加入到新训练集Dk中,最后将Dk和原样本实例集合并为总训练集。
2.根据权利要求1所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,在步骤S2中,需要过滤题目的图片、停用词、标点符号,保留特殊符号、专业词汇,获得题目的一组关键词,把各个样本的长度增加到题目集中最多的关键词个数,空白位置用指定的字符填充,使样本的输入维度一致,并对每个关键词训练出其词向量;
3.根据权利要求2所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,如果标签对匹配成功对应的两个实例的算术平均值实例已存在于Dk中,则直接将已存在的实例的对应标签置为1,不需要添加新训练样本。
4.根据权利要求1所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,在步骤S4中,搭建一维卷积神经网络的具体步骤如下:
输入层为一道题目的一组用词向量表示的关键词,一维卷积神经网络的channel数量为词向量大小,输出层激活函数为Sigmoid激活函数,代价函数采用经典的Cross Entropy函数,提取局部相关性矩阵的有效元素,有效元素为除去对角线和对称多余的部分剩余的元素,一个元素对应一个神经元加入到一维卷积神经网络的第一层全连接层中,期望模型在学习预测中利用标签间的相关性。
5.根据权利要求1所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,在步骤5中,利用基于密度的聚类,新题目与题库所有题目的考点标签特征作为数据集,分类为若干个簇,若有噪音点、异常点,则该题目没有任何与其相似的题目,将其各自作为一个簇。
6.根据权利要求1所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,在步骤S5中,若输入的新题目已存在于题库中,则直接使用题库聚类的结果找出推荐题目;否则,先通过卷积神经网络预测出该题目的考点,再用聚类的方法寻找在题库中与新题目考点相似的题目,将其作为推荐题目,若新题目的考点特征在聚类时为噪音点,则无题目可推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910541695.7/1.html,转载请声明来源钻瓜专利网。