[发明专利]基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法在审
申请号: | 201811467956.7 | 申请日: | 2018-12-03 |
公开(公告)号: | CN109635254A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 廖勇;张笑颜 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 决策树 贝叶斯 混合模型 关键词数据库 查询关键词 分类标准 二分器 分类 筛选 融合 改进 | ||
本发明提出一种基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法。首先,运用查询关键词的出现频率建立关键词数据库。其次,对关键词进行分类。再者,利用决策树和朴素贝叶斯融合进行初步粗略筛选确定文章的抄袭类型。最后,在运用决策树分类时无法明确分类标准的情况下运用SVM学习,形成二分器。本专利旨在改进当前论文查重系统,提高系统对于论文查重的准确性。
技术领域:
本发明涉及一种文本审核方法,具体涉及基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法。
背景技术:
当前互联网十分发达,网络上有很多不同学者上传的研究成果。现在很多职位,例如教师、医生进行职称评选都要完成职称论文,高校毕业生毕业也需要完成毕业论文,然而其中有不少人违背道德底线,为了达到自己的个人目的抄袭别人的研究成果。为了打击学术造假和学术不端的行为,论文查重软件应运而生。但是这项技术还不够完备,误判的可能性很高。当前论文查重系统还存在如下几个问题:(1)对于文章中文字的查重技术已经很严格,但是对于文章中的中心思想的抄袭却很难辨认。(2)文章中不可避免地出现一些公式或一些知识类描述,这些不应该算为抄袭,但是现在很多查重系统却判为抄袭。(3)对于抄袭种类的区分不明显,导致无法判断文章作者的抄袭严重度。针对如上问题,亟需本领域技术人员解决。
发明内容:
针对上述问题,本发明提出一种论文查重方法。具体如下:
1.基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,包括以下四个步骤:
S1,运用查询关键词的出现频率建立关键词数据库;
S2,对关键词进行分类;
S3,利用决策树和朴素贝叶斯融合进行初步的粗筛选;
S4,在运用决策树分类时无法明确分类标准情况下运用SVM学习,形成二分器。
2.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,步骤S2包括以下子步骤:
S21,将关键词进行分类,分为创新类和知识类;
S22,对于知识类的关键词的重复率可以宽限为40%,但是对于创新型关键词容忍率要低一些,为5%;这样可以防止查重文章中对于一些普遍知识的运用而造成的误判。
3.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,步骤S3包括以下子步骤:
S31:通过检测图表、数据、关键词、中心思想提取出关键指标;
S32:选择spearman秩相关系数来确定指标两两之间的相关性,并对筛选出的相关性强的指标采用主成分分析法进行降维,重新组合为一组新的相互无关的综合变量;
S33:选取文章的开头、中间段四段、结尾段六个部分,采用层次分析法分析出权重,加权综合后得到六个部分的综合值;中间段的提取方法为:若中间正文部分核心观点数大于四个,则通过每个核心观点中字数最多的段,将其字数从大到小排列后,选取最高的四个段;若核心观点数等于四个,则直接选取这四个观点中的字数最多的段;若小于四个则选取正文中所有段落字数排列后的字数最多的前四位段落;
S34:将抄袭类型集表示为因变量,指标属性集表示为自变量,以段落指标属性的六部位综合值和其相应的抄袭类型为训练样本,对训练样本通过递归分割的方式建立CART决策树;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811467956.7/2.html,转载请声明来源钻瓜专利网。