[发明专利]一种基于文章分割和皮尔森检验的文章重复程度检测方法有效
申请号: | 201811511826.9 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109726270B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 徐炜华 | 申请(专利权)人: | 徐炜华 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江苏省镇*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文章 分割 皮尔森 检验 重复 程度 检测 方法 | ||
本发明为一种基于文章分割和皮尔森检验的文章重复程度检测方法。本发明的技术要点是将文章正文全部分割为多个片段,而后统计每个片段的出现次数并按照一定顺序排列,再将数据库中或其它来源的文章进行相同处理,所得数据可绘制成曲线,故可以采取皮尔森检验的方法来检测两条曲线的相关性,从而得出两篇文章的重复程度。当相关系数为0.8‑1.0时说明两篇文章高度重复,为0.6‑0.8时较高重复,为0.4‑0.6时中等程度重复,为0.2‑0.4时低重复,为0.0‑0.2时极低重复或无重复。此技术与计算机技术结合后可应用在论文重复性检测(俗称论文查重)方面,并且提高了人为降低重复率(俗称降重)的难度,对于打击论文抄袭行为具有重要意义。
技术领域
本发明涉及一种论文重复程度检测的方法。
背景技术
皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient),是一种线性相关系数,其定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母ρ(rho)作为代表符号。估算样本的协方差和标准差,可得到Pearson相关系数(样本相关系数),常用英文小写字母r代表:
r亦可由样本点的标准分数均值估计,得到与上式等价的表达式:
其中及σX分别是对Xi样本的标准分数、样本平均值和样本标准差。
皮尔森相关系数是用来反映两个变量线性相关程度的统计量,其绝对值越大表明相关性越强。当相关系数为0.8-1.0时说明相关性极强,为0.6-0.8时相关性较强,为0.4-0.6时中等程度相关,为0.2-0.4 时相关性较低,为0.0-0.2时相关性极低或无相关。
发明内容
本发明创造性地选择不以语义完整的句子为最小查重单位,解决了以往传统论文查重方法通过调整语序等方法即可轻易降重的问题,并借助统计学中成熟的数学模型对数据进行分析。本发明旨在提供一种简易、精确、可靠的论文查重方法。
具体实施方式
首先,随机选取分割位点,将待测论文分解成为长度相等或不等的片段。此处应注意的是分解后的片段长度不宜过长,以免影响检测的灵敏度,一般不超过5个字,将全文均分解为单个字符时灵敏度最高。然后对所得片段在论文中出现的总次数进行计数,按照一定顺序进行排列,得到一个数组。而后,将数据库中的参比论文按照同样的位点进行分解,将分解出的论文片段按照出现的次数进行计数,待测论文中出现但参比论文中未出现的片段计0,待测论文中未出现但参比论文中出现的片段不统计,所得的数据按照与待测论文相同的顺序排列,得到两数组。最后,对所得的两数组进行Pearson检验,得出两数组的相关系数,即为两篇论文的重复程度。
该方法的详细说明如下述实例所示:
选择灵敏度最高的全文逐字分解方式。将待测论文分解,对所得汉字出现次数进行计数,并按照分解出的汉字的首字母顺序对所得数据进行排序,得到一个数组。再将数据库中的参比论文分解,对所得汉字出现次数进行计数,并按照待测论文的数据排列顺序对所得数据进行排序,待测论文中出现但参比论文中未出现的字计0,待测论文中未出现但参比论文中出现的字不统计,又得到一个数组。最后,对所得的两数组进行Pearson检验,得出两篇论文的重复程度,当相关系数为0.8-1.0时说明论文存在抄袭的可能性极大,为0.6-0.8时抄袭的可能性较大,为0.4-0.6时有一定的抄袭嫌疑,为0.2-0.4时抄袭的可能性较低,为0.0-0.2时抄袭的可能性极低。重复以上操作,直至数据库中的参比论文均检测完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐炜华,未经徐炜华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811511826.9/2.html,转载请声明来源钻瓜专利网。