[发明专利]处理重复题目的方法与装置以及电子设备和存储介质有效
申请号: | 202110611007.7 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113051364B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 欧志刚 | 申请(专利权)人: | 新东方教育科技集团有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289;G06K9/62 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 彭久云 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 重复 题目 方法 装置 以及 电子设备 存储 介质 | ||
1.一种处理重复题目的方法,包括:
获取包括多个待选题目的题库;
基于所述多个待选题目创建数据索引结构,包括:
获取所述多个待选题目中每个待选题目的至少一个第一复合特征,得到每个所述待选题目与对应第一复合特征的第一映射关系,其中,所述第一复合特征由对应的待选题目的题干的至少一个第一词语特征中的一个或多个与所述待选题目的题目类型和/或科目构成,
使用所述多个待选题目中每个待选题目的每个第一复合特征以及基于所述多个待选题目中每个待选题目的第一映射关系,形成所述多个待选题目的所述数据索引结构;
获取目标题目,为所述目标题目创建索引比较对象集合,包括:
获取所述目标题目的题干的至少一个第二词语特征,
通过将所述至少一个第二词语特征中的一个或多个与所述目标题目的题目类型和/或科目构成第二复合特征,得到第二复合特征集合,
使用所述目标题目的所述第二复合特征集合以形成所述索引比较对象集合;
通过在所述数据索引结构中分别查找所述目标题目的所述索引比较对象集合中的每个所述第二复合特征,用以获取对应所述目标题目的重复题目的标识信息;
其中,使用所述多个待选题目中每个待选题目的每个第一复合特征以及基于所述多个待选题目中每个待选题目的第一映射关系,形成所述多个待选题目的所述数据索引结构,包括:
对于所述多个待选题目中每个待选题目的每个第一复合特征,通过所述多个待选题目中每个待选题目的第一映射关系,得到与每个所述第一复合特征对应的一个或多个待选题目,作为每个所述第一复合特征的一个或多个索引值,构建所述数据索引结构;或者
对于所述多个待选题目中的每个所述待选题目,通过所述多个待选题目中每个所述待选题目的第一映射关系,得到与每个所述待选题目对应的一个或多个第一复合特征,作为每个所述待选题目的一个或多个索引值,构建所述数据索引结构。
2.如权利要求1所述的处理重复题目的方法,其中,得到每个所述待选题目与对应第一复合特征的第一映射关系,包括:
将每个所述待选题目的每个所述第一复合特征作为关键对象且将所述待选题目对应的所述标识信息作为与所述关键对象对应的索引值,通过所述关键对象与所述索引值映射关系来建立所述第一映射关系,
其中,在从所述数据索引结构查找时通过比较所述索引比较对象集合中的第二复合特征和所述关键对象以获取对应的所述标识信息。
3.如权利要求2所述的处理重复题目的方法,其中,
所述数据索引结构为哈希表且所述索引值为哈希值。
4.如权利要求1~3任一所述的处理重复题目的方法,还包括:将题目编号作为所述标识信息。
5.如权利要求1所述的处理重复题目的方法,其中,获取所述目标题目,包括:
从所述题库的多个待选题目中选择一个题目作为所述目标题目。
6.如权利要求4所述的处理重复题目的方法,其中,通过在所述数据索引结构中查找所述目标题目的所述索引比较对象集合中的每个所述第二复合特征,用以获取对应所述目标题目的重复题目的标识信息,包括:
在所述数据索引结构中查找所述索引比较对象集合中的每个所述第二复合特征,以获取用于所述目标题目的重复题目编号候选集合,其中,所述重复题目编号候选集合包括所述目标题目对应的重复候选题目的题目编号;
基于所述目标题目的重复题目编号候选集合,获取所述目标题目对应的重复题目的题目编号,其中,所述重复题目的题目编号是所述重复题目编号候选集合的至少一部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新东方教育科技集团有限公司,未经新东方教育科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110611007.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可捞式桥塞
- 下一篇:分段或阶段空场法开采滞留存窿矿的精细化安全回采方法