[发明专利]基于排序的抄袭检测文本匹配方法有效
申请号: | 201810198863.2 | 申请日: | 2018-03-09 |
公开(公告)号: | CN108509414B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 孔蕾蕾;韩中元;齐浩亮 | 申请(专利权)人: | 黑龙江工程学院 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
地址: | 150050 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于排序的抄袭检测文本匹配方法,涉及抄袭检测技术领域。本发明为了实现高模糊抄袭的检测,解决基于启发式方法依赖专家经验、无法融合抄袭检测中各类有效的特征的问题。将抄袭文本的匹配形式化为一个排序任务,给出一个可疑文本片段,该方法应用基于序对的排序学习方法获得源文档中该片段最可能抄袭的片段。本发明引入机器翻译的评价指标METEOR来捕获词汇相似和语义相似。应用PAN2012和PAN 2013的抄袭检测数据集对该方法进行了评价,并与PAN2013、2013和2014评测中获得最好性能的方法进行了比较。在高模糊抄袭和总结抄袭子集上,本发明相对基线方法在评价指标Plagdet上分别提高了22%和43%。本发明方法时间效率也优于基线方法。 | ||
搜索关键词: | 基于 排序 抄袭 检测 文本 匹配 方法 | ||
【主权项】:
1.一种基于排序的抄袭检测文本匹配方法,其特征在于,所述方法的实现过程为:步骤1、构建基于排序的抄袭文本匹配模型:设f为基于排序的抄袭文本匹配模型,f是关于
的线性函数,定义如下:
其中,称f为基于排序的抄袭文本匹配模型;
表示利用源文档片段与抄袭文档片段对所构建的描述源文档片段与抄袭文档片段抄袭程度的特征向量,
表示权重向量,将使用基于序对的排序学习的方法获得;
将基于步骤2获取,
将基于步骤3的学习算法获得;步骤2、基于METEOR评价指标提取排序特征给出可疑文档dplg中的片段si,将选择si的抄袭源形式化为给定一个可疑文档的片段si,对源文档的片段列表dsrc={(r1,r2,......,rq)}的每个文本片段rj,利用机器翻译评价指标METEOR的精确率Precision、召回率Recall、F1值、F均值Fmean、惩罚度Penalty和METEOR得分METEOR Score六个评价指标构建特征向量
将作为排序学习的特征向量;
的每一维为METEOR的一个评价指标,分别为Precision、Recall、F1、Fmean、Penalty和METEOR Score;其计算方法如表1的公式所示:表1基于METEOR的特征![]()
步骤3、根据抄袭文本匹配的排序算法,学习排序模型f,获得权重向量
具体过程为:定义
和
是一对文本片段(si,ru)和(si,rv)的特征向量,yi,u和yi,v分别表示si与ru以及si与rv的抄袭程度;用>表示偏序关系,如果
表示对于可疑文档片段si,ru排序在rv前面,即下列不等式成立:
对于偏序关系
如果
则模型f发生了一个错误;因此,损失函数应该与定义在训练数据集上的排序错误相关;排序错误发生在f将一个非抄袭匹配文档对排在抄袭匹配文档对之前,即:
其中,如果π是真,则[[π]]为0,否则[[π]]为1;最小化式(3)意味着排序学习系统应该在假设空间H上学习一个排序函数f∈H,使得f在训练数据T的n个可疑文档片段上,最大化下列不等式的数目:
直接优化上述问题被证明是NP难的;使用松弛变量(非负)
式(4)可被表示为:
进一步的,等式(5)可被重写为:
用新的向量
表示偏好关系
令z表示ru和rv,的排序,则有:
根据ru和rv的排序,赋予向量
一个正的标签z=+1或一个负的标签z=‑1;由此,式(6)的优化问题转化为在序对
上的分类问题;等式(7)等价于在序对向量上解决下面的二次最优化问题:最小化:
使得:
if yu,v,k=1,ξu,v,k≥0,k=1,...,n其中,项
控制模型的复杂度;式(8)为:使用定义在文档序对上的Hinge损失,对于可疑文档片段si,xi,u为抄袭匹配对应的向量,xi,v不是抄袭匹配对应的向量,yu,v=1,那么如果
以边界1大于
则没有损失,否则,损失为ξu,v,k;对于经Ranking SVM学到的优化向量
则最终的排序函数f为:
式中,
表示源文档片段与抄袭文档片段对的特征向量,
表示算法学到的最优的权重向量,
表示最优权重向量与特征向量的线性组合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江工程学院,未经黑龙江工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810198863.2/,转载请声明来源钻瓜专利网。