[发明专利]基于短文本的OJ题目分类器构建方法及题目模拟方法在审
申请号: | 201910479430.9 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110297886A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 张少宏;刘健宇;蔡立晴 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/951 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;麦小婵 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 题目分类 构建 弱学习算法 空间向量 题目 测试集 短文本 训练集 预设 知识库 分类效果 输出结果 算法分类 资源平台 最优参数 专家库 竞赛 分词 重复 更新 检验 优化 维护 | ||
1.一种基于短文本的OJ题目分类器构建方法,其特征在于,包括:
获取OJ竞赛的现场提交数据;其中,所述现场提交数据包含若干个竞赛题目信息;所述竞赛题目信息包括:编号信息和题目名称;
根据所述竞赛题目信息,分别获取每个竞赛题目在各个OJ资源平台中一一对应的题解报告;其中,每个题解报告对应标记有预设的ACM算法类别;
对所有获取的题解报告进行分词处理,并对分词后的题解报告进行空间向量提取,获得若干个空间向量集;其中,一个题解报告对应一个空间向量集;
将所有空间向量集随机划分为训练集和测试集,并利用所述训练集对预设的多个弱学习算法的初始参数进行优化处理,获得所述多个弱学习算法的最优参数;
根据所述多个弱学习算法及所述最优参数,构建OJ题目分类器,并利用所述测试集测试所述OJ题目分类器的分类效果。
2.根据权利要求1所述的基于短文本的OJ题目分类器构建方法,其特征在于,所述根据所述竞赛题目信息,分别获取每个竞赛题目在各个OJ资源平台中一一对应的题解报告,具体为:
根据所述竞赛题目信息,查询每个竞赛题目在各个OJ资源平台中包含题解报告的网页;
分析各网页上题解报告的分布情况,结合缺失数据替换补全技术,筛选出每个竞赛题目在各个OJ资源平台中一一对应的题解报告。
3.根据权利要求2所述的基于短文本的OJ题目分类器构建方法,其特征在于,所述对所有获取的题解报告进行分词处理,并对分词后的题解报告进行空间向量提取,获得若干个空间向量集,具体为:
根据预设的停用词列表和关键词列表,通过jieba分词工具对所述获取的题解报告进行分词,每个题解报告对应获得一个分词文本;
通过TF-IDF加权优化算法对所述分词文本中的每个词组的出现频率进行筛选排序,并将每个词组转换为空间向量,从而获得每个分词文本一一对应的空间向量集。
4.根据权利要求1所述的基于短文本的OJ题目分类器构建方法,其特征在于,所述多个弱学习算法的初始参数由gridsearchcv模块计算获得,具体为:
所述gridsearchcv模块根据预设的参数列表,将参数进行多种组合并对组合结果进行评分,再根据评分结果调整参数,从而筛选出所述初始参数;其中,所述参数列表记录了所述多个弱学习算法、以及每个弱学习算法对应的若干个参数。
5.根据权利要求1所述的基于短文本的OJ题目分类器构建方法,其特征在于,所述利用所述训练集对预设的多个弱学习算法的初始参数进行优化处理,获得所述多个弱学习算法的最优参数,具体为:
将训练集的空间向量集作为训练输入,将每个空间向量集对应的ACM算法类别作为训练输出,利用集成算法对每个弱学习算法进行训练,根据训练结果不断调整每个弱学习算法的初始参数,直到训练结果达到预设的目标,从而获得所述最优参数。
6.根据权利要求1所述的基于短文本的OJ题目分类器构建方法,其特征在于,所述利用所述测试集测试所述OJ题目分类器的分类效果,具体为:
将所述测试集的空间向量集输入到所述OJ题目分类器,并依次将每个空间向量集的分类结果与每个空间向量集对应的ACM算法类别进行一一匹配,获得所述测试集的匹配结果;
当所述测试集的匹配结果满足预设要求时,确定本次测试成功;
当所述测试集的匹配结果不满足预设要求时,将重新划分训练集和测试集,并根据重新划分的训练集和测试集,构建新的OJ题目分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910479430.9/1.html,转载请声明来源钻瓜专利网。