[发明专利]一种筛查题库中重复试题的方法及装置有效
申请号: | 201510700751.9 | 申请日: | 2015-10-23 |
公开(公告)号: | CN105373594B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 周忠杰 | 申请(专利权)人: | 广东小天才科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/907 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 邓猛烈;胡彬 |
地址: | 523860 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 题库 重复 试题 方法 装置 | ||
本发明公开了一种筛查题库中重复试题的方法及装置,该方法包括:按照预设规则从题库中提取试题得到待查重试题;针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。本发明解决了现有筛查题库中重复试题的方法优化效果差,准确度不高的技术问题,保证题库的质量,降低题库维护成本,大大提高了产品的用户体验。
技术领域
本发明涉及筛查题库中重复试题的技术领域,尤其涉及一种筛查题库中重复试题的方法及装置。
背景技术
随着互联网时代浪潮到来,传统教育行业慢慢被颠覆,在线教育产品随着这个趋势井喷式的爆发出来,在这些产品之中最为突出的产品类型当属题库类和拍照答疑类,为了解决现在学生作业多,作业中遇到难题无法及时寻求帮助等的问题,题库类和拍照答疑类产品必须保证后台题库量大,尽量使得学生能够从题库中搜索他们想要的题目和答案解析,然而,题库的质量对学生能否快速搜索到他们想要的答案解析和用户体验有着重要影响,甚至决定了该产品是否能够成功。
此类产品中,由于数学题目中含有较多的图形、公式、字母符号,受目前图像识别技术的限制等原因,导致题库中数学题目有大量的重复试题,造成了以下三种情况:
1、服务器压力大,题库维护成本高;
2、搜索耗时增加,用户体验差;
3、推送给学生用户的内容有太多重复内容,用户体验差;
4、题库解析是人工解答,答题成本增加。
发明内容
本发明提供一种筛查题库中重复试题的方法及装置,解决了现有筛查题库中重复试题的方法优化效果差,准确度不高的技术问题,保证题库的质量,降低题库维护成本,大大提高了产品的用户体验。
本发明采用以下技术方案:
第一方面,本发明提供一种筛查题库中重复试题的方法,包括:
按照预设规则从题库中提取试题得到待查重试题;
针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合;
分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。
进一步地,所述方法还包括:
从所述题库中删除所述与待查重试题重复的试题。
进一步地,所述针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题集合,得到相似试题集合,具体为:
采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。
进一步地,所述题库为数学题库;所述数据特征包括数字、字母、汉字和汉字的长度。
进一步地,所述分别提取所述待查重试题的数据特征和所述相似试题集合中每个试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510700751.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种注入聚合物推进的前缘模拟监测方法
- 下一篇:一种车辆查询方法及装置