[发明专利]一种电子作业抄袭检测方法无效
申请号: | 201110235711.3 | 申请日: | 2011-08-17 |
公开(公告)号: | CN102411564A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 张师林 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100144 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 作业 抄袭 检测 方法 | ||
技术领域
本发明涉及电子学习和自然语言处理领域,它对于作业集进行内容提取,通过常用词词频、实词语义相似度对于作业抄袭情况进行检测。
背景技术
随着电子学习系统(E-Learning)的普及,大量的学生作业都是以电子作业的形式提交到电子学习系统中,并最终由老师给出评定。由于电子作业数量庞大,人工判断任意两个作业之间是否存在抄袭工作量非常大。对于电子作业的抄袭检测,人工处理耗时耗力,不能满足批量检测的要求。基于自然语言处理的文档相似性计算方法使得电子作业抄袭检测可以由计算机完成。但是传统的作业检测是根据计算文本向量的距离来完成的,误差较大并且速度较慢。本发明结合常用词词频和实词语义相似度,提出一种新的度量文本相似性的方法,并用来解决电子作业的抄袭检测问题。“的”、“一”、“是”、“了”和“我”是在汉语语料中出现最为频繁的五个常用词。它们在不同作者的文档中,出现频率是不一样的,所以根据这个特征可以检测不同文档是否出自同一作者。“知网”是一个中文语义辞典,利用“知网”中的概念层次关系,可以计算两个实词之间的语义距离。这里的实词包括名词、动词、形容词和副词。根据常用词词频和实词语义相似度两方面的信息,可以综合判断起来用以判断两篇文档之间是否存在抄袭现象。
发明内容
人工判断电子作业是否存在抄袭费时费力,现有的基于文本向量的检测方式速度慢,错误率高。为了解决现有技术问题的不足,本发明提出一种电子作业抄袭检测的方法。
为了达成所述目的,本发明提供一种电子作业抄袭检测的方法,其技术方案包括如下步骤:
步骤S1:对于待处理的作业集,分别进行文档类型适配和文档内容提取;
步骤S2:对于步骤S1所述的处理结果,作为纯文本存入作业数据库;
步骤S3:对于步骤S2中的纯文本格式的作业,分别进行中文分词和词性标注;
步骤S4:对于步骤S3处理后的以词表达的作业,分别进行常用词词频计算和实词语义相似度计算;
步骤S5:对于步骤S4得到的两种相似度进行加权平均,最终得到两个作业的相似度并根据阈值判断是否抄袭。
本发明的有益效果:对于电子学习系统中的批量电子作业进行抄袭检测。对于电子学习系统中的批量作业,使用本技术可以避免人工检测作业抄袭所带来的枯燥繁琐的劳动。本发明有效融合了常用词词频和实词语义相似度两种文本相似性度量方法,并根据融合后的相似度判断两篇文档间是否存在抄袭。
附图说明
图1是本发明的文档类型适配和文档内容提取流程图。
图2是本发明的常用词词频计算和实词语义相似度计算流程图。
图3是本发明的基于“知网”的实词语义关系层次图。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明提出了一种电子作业抄袭检测的方法,具体的实施步骤如下所示:
1、作业类型适配和作业内容提取
对于待处理的批量作业,首先进行作业类型适配和作业内容提取,如图1所示。作业文本集中的作业被作业类型适配器处理,根据不同的作业文档类型交由不同的文档解析器处理。图1所示的WORD文档解析器、PDF文档解析器、PPT文档解析器和HTML文档解析器的作用分别是用来提取WORD、PDF、PPT和HTML文档类型里边的内容,并进一步转化为纯文本文件。
2、中文分词和词性标注
对于以纯文本表示的作业文件,分别进行中文分词和词性标注。一篇作业文档即表示为一些汉语词汇的集合,这些词汇都标注了各自的词性。
3、文本相似度度量
如图2所示,对于文档A和B,利用常用词词频和实词语义相似度两种方法的结合来判断A和B是否相似。其中,常用词词频和实词语义相似度的计算方法在4和5中详细介绍。
4、常用词词频计算
这里所说的常用词指的是汉语语料中出现频率最多的五个词,它们分别是“的”、“一”、“是”、“了”和“我”。不同学生的作业,这五个词出现的频率不一样。定义文档A中“的”字的出现频率为,其中,|A|表示文档A中的字数,表示文档A中“的”字出现的次数。按同样的方式定义文档A中其他字的出现频率为,和文档A和文档B中“的”字的频率相似度定义为,其中表示文档A和文档B中“的”字出现的频率最大值。按照同样的方式定义和总的常用词相似度定义为,
5、实词语义相似度计算
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110235711.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于天线的鸠尾型装置
- 下一篇:一种汽车动力电池的模拟方法和装置