[发明专利]题目分类方法及装置在审
申请号: | 202210396608.5 | 申请日: | 2022-04-15 |
公开(公告)号: | CN114860926A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 吴通通;赵薇;柳景明;李旭 | 申请(专利权)人: | 北京飞象星球科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 何定润 |
地址: | 100102 北京市朝阳区广顺南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 题目 分类 方法 装置 | ||
本申请提供一种题目分类方法及装置,其中所述题目分类方法包括:获取待分类的题目信息以及所述题目信息对应的科目类别;将所述题目信息输入题目分类模型中的编码模块进行编码处理,获得编码向量;根据所述科目类别,在所述题目分类模型中的分类模块中确定目标分类模块;将所述编码向量输入所述目标分类模块进行分类处理,获得所述题目信息对应的章节类型。实现了通过题目分类模型中包含的多个分类模块对不同科目类别的题目信息进行分类处理,不仅能够减少人工分类所消耗的人力成本以及时间成本,并且避免了为每个科目类别,单独部署一个题目分类模型,降低了模型部署的成本。
技术领域
本申请涉及数据处理技术领域,特别涉及一种题目分类方法及装置、计算设备和计算机可读存储介质。
背景技术
实际应用中,通常需要将每个科目的题目信息按照其章节类型进行标记,然后再录入系统,供后续检索、推荐等使用。目前,很多情况采用人工的方式对题目信息的章节类型进行标记。由于不同老师存在认知差异,标记结果经常不一致。在标记过程中,浏览海量的题目和章节需要耗费大量精力,因此标记也常常出错。而采用深度学习模型的方式对题目信息的章节类型进行标记,虽然能够缓解人工问题,但每新增一个科目类别,就要新部署一个模型,训练和部署成本较高。此外,由于带标注的训练数据资源难以获取,使用多个模型进行训练,每个模型无法从其他科目的训练数据中受益,导致模型精度欠佳。因此,亟需要提供一种可以解决上述问题的技术方案。
发明内容
有鉴于此,本申请实施例提供了一种题目分类方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种题目分类方法,包括:
获取待分类的题目信息以及所述题目信息对应的科目类别;
将所述题目信息输入题目分类模型中的编码模块进行编码处理,获得编码向量;
根据所述科目类别,在所述题目分类模型中的分类模块中确定目标分类模块;
将所述编码向量输入所述目标分类模块进行分类处理,获得所述题目信息对应的章节类型。
可选地,所述根据所述科目类别,在所述题目分类模型中的分类模块中确定目标分类模块,包括:
将所述科目类别与所述题目分类模型中包含的分类模块对应的科目类别进行对比;
将对比一致的科目类别对应的分类模块确定为目标分类模块。
可选地,所述题目分类模型,通过如下方式进行训练:
获取训练样本集,其中,所述训练样本集中包含至少两种科目类别对应的训练样本;
通过所述训练样本集中包含的训练样本对初始题目分类模型进行模型训练,直至获得满足训练停止条件的题目分类模型。
可选地,所述将所述题目信息输入题目分类模型中的编码模块编码处理,获得编码向量之前,还包括:
在所述题目信息中确定与预设无效信息匹配的无效题目信息;
将所述无效题目信息在所述题目信息中删除,获得有效题目信息,将所述有效题目信息作为所述题目信息。
可选地,在所述题目信息中包含多个子信息的情况下,所述将所述题目信息输入题目分类模型中的编码模块进行编码处理,获得编码向量之前,还包括:
将所述题目信息包含的子信息行拼接处理,获得拼接题目信息;
将所述拼接题目信息作为所述题目信息执行所述将所述题目信息输入题目分类模型中的编码模块进行编码处理,获得编码向量。
可选地,所述将所述编码向量输入所述目标分类模块进行分类处理,获得所述题目信息对应的章节类型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京飞象星球科技有限公司,未经北京飞象星球科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210396608.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种助老轮椅装置
- 下一篇:一种复合电极及其制备方法与应用