[发明专利]基于段落抄袭检测的电子作业反抄袭系统和方法有效
申请号: | 201310631663.9 | 申请日: | 2013-12-03 |
公开(公告)号: | CN103678528B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | 周小平 | 申请(专利权)人: | 北京建筑大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100044*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 段落 抄袭 检测 电子 作业 系统 方法 | ||
1.一种基于段落抄袭检测的电子作业反抄袭系统和方法,其特征在于,所述系统包括如下装置:
电子作业提交装置,用于提交电子作业;
电子作业接收装置,用于接收、存储通过电子作业提交装置所提交的电子作业,并将电子作业入队抄袭检测队列装置;
抄袭检测队列装置,用于以队列方式标记待抄袭检测的电子作业,以待有序检测所提交的电子作业的抄袭行为;
电子作业解析装置,用于将电子作业解析成文本,进行段落分解,存储分解后的文本段落,并启动抄袭检测装置进行抄袭检测;
抄袭检测装置,用于识别所提交的电子作业是否有抄袭行为;
电子作业存储装置,用于存储电子作业、电子作业解析后的文本段落、文本段落关键词及其词频权重、电子作业抄袭状态和账号信息;
所述方法包括如下步骤:
通过电子作业提交装置提交电子作业;
电子作业接收装置接收学生提交的电子作业后,将电子作业入队抄袭检测队列装置,等待抄袭检测;
电子作业解析装置从抄袭检测队列装置中出队待检测的电子作业,然后,对其进行文本解析、段落分解,并存储解析后的文本段落,启动抄袭检测装置进行抄袭检测;
抄袭检测装置获取待检测的电子作业各文本段落,计算其同已存储的原创段落之间的相似度,融合通过检测的文本段落数检验,判断是否有抄袭行为,并存储抄袭检测结果将。
2.如权利要求1所述的电子作业接收装置,其特征在于,其能同时接收来自多个如权利要求1所述的电子作业提交装置的作业提交请求,并将接收到的完整的电子作业存储于如权利要求1所述的电子作业存储装置;同时,根据电子作业的提交时间先后顺序将电子作业入队如权利要求1所述的抄袭检测队列装置。
3.如权利要求1所述的抄袭检测队列装置,其特征在于,采用“先进先出”的队列结构,其内按时间先后队列待检测电子作业的索引值。
4.如权利要求1所述的电子作业解析装置,其特征在于,其在完成电子作业解析后,将启动抄袭检测装置进行抄袭检测,其进行电子作业解析包含如下步骤:
I、从抄袭检测队列装置获取待检测电子作业的索引值,并通过索引值获取电子作业完整内容;
II、根据电子作业的文件扩展名判断电子作业的文件格式;如若为pdf,则采用pdf规范格式解析并抽取其文本;如果为doc或docx,则采用word api解析并抽取其文本;如果为txt格式,则直接提取文本;
III、根据所抽取的电子作业文本,以字符\n进行分段处理;
IV、将分段后所得的各文本段落按顺序存储于电子作业存储装置中。
5.如权利要求1所述的抄袭检测装置,其特征在于,按待检测电子作业文本段落先后顺序逐段检测各段抄袭行为,其抄袭检测包括如下步骤:
I、初始化抄袭检测参数,包括当前待检测文本段落序号x=1,已通过检测文本段落总数d=0;
II、若x大于待检测电子作业总文本段落数,则转向执行步骤IX;否则,从如权利要求1所述的电子作业存储装置提取待检测电子作业第x个文本段落,标记为Px;
III、对文本段落Px进行中文分词,并依据标记各词语词性,根据词性,保留有实质意义的名词、动词、方位词、住所词和时间词并统计其词频,得到文本段落Px的关键词及关键词的词频权重,采用VSM模型标记SX,SX可表示为:
SX={(wx1,nx1),(wx2,nx2),…,(wxi,nxi)}
其中,wx为文本段落Px的关键词,i为关键词个数,nx为该关键词的词频权重,其计算公式为:
式中freql为关键词wxl的词频,max{freqm,m=1,2,…,i}为所有关键词中最高的词频数。
当i小于设定阈值时,文本段落Px太短,不进行后续检测;此时,设置x=x+1,转向执行步骤II;
IV、将SX结构化存储于如权利要求1所述的电子作业存储装置;
V、按顺序从如权利要求1所述的电子作业存储装置中提取已存储的原创段落关键词及其词频权重信息;若所提取的原创段落标记为SY,SY可表示为:
SY={(wy1,ny1),(wy2,ny2),…,(wyj,nyj)}
VI、对SX和SY进行关键词扩展处理,若SX和SY的总关键次数为k,则SX和SY可表示为:
SX={(w1,x1),(w2,x2),…,(wk,xk)}
SY={(w1,y1),(w2,y2),…,(wk,yk)}
其中,w为扩展后的关键词,xi为关键词wi在SX中的词频权重,yi为关键词wi在SY中的词频权重;当SX或SY经扩展后出现新的关键词,其词频为0时,设置其词频权重赋值为0.001;
VII、计算SX同SY的余弦相似度Sim(SX,SY),其计算公式如下:
VIII、若Sim(SX,SY)大于设定阈值,则视该检测电子作业有抄袭行为,执行步骤X;否则,设置d=d+1,x=x+1,转向执行步骤II;
IX、判定d是否大于设定阈值,如果d小于设定阈值,则视为抄袭文档;反之,该电子作业为原创电子作业,并标记所有通过检测的d个文本段落为原创段落;
X、存储电子作业抄袭检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京建筑大学,未经北京建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310631663.9/1.html,转载请声明来源钻瓜专利网。