[发明专利]一种筛查题库中重复试题的方法及装置有效
申请号: | 201510700751.9 | 申请日: | 2015-10-23 |
公开(公告)号: | CN105373594B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 周忠杰 | 申请(专利权)人: | 广东小天才科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/907 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 邓猛烈;胡彬 |
地址: | 523860 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种筛查题库中重复试题的方法及装置,该方法包括:按照预设规则从题库中提取试题得到待查重试题;针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。本发明解决了现有筛查题库中重复试题的方法优化效果差,准确度不高的技术问题,保证题库的质量,降低题库维护成本,大大提高了产品的用户体验。 | ||
搜索关键词: | 一种 题库 重复 试题 方法 装置 | ||
【主权项】:
1.一种筛查题库中重复试题的方法,其特征在于,包括:按照预设规则从题库中提取试题得到待查重试题,所述题库为数学题库;针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,所述数据特征包括数字、字母、汉字和汉字的长度;所述针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合,具体为:采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合;所述分别提取所述待查重试题的数据特征和所述相似试题集合中每个试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,包括:如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字和字母,使用Jaro Distance算法判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字,包含字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相似度值,并且采用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值和所述第三相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母小于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第四相似度值,并且采用Dice系数计算第五相似度值,根据所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母大于或等于预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第六相似度值,根据所述第六相似度值,得到与所述待查重试题重复的试题;其中,根据所述第二相似度值和所述第三相似度值,得到与所述待查重试题重复的试题,包括:如果所述第二相似度值大于预设第二相似度值,且所述第三相似度值大于预设第三相似度值,则得到与所述待查重试题重复的试题;根据所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题,包括:如果所述第四相似度值大于预设第四相似度值,且所述第五相似度值大于预设第五相似度值,则得到与所述待查重试题重复的试题;根据所述第六相似度值,得到与所述待查重试题重复的试题,包括:如果所述第六相似度值大于预设第六相似度值,则得到与所述待查重试题重复的试题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510700751.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种注入聚合物推进的前缘模拟监测方法
- 下一篇:一种车辆查询方法及装置