[发明专利]一种论文抄袭检测方法及系统有效
申请号: | 201610020719.0 | 申请日: | 2016-01-13 |
公开(公告)号: | CN105701076B | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 夏峰;洪学文;曾文斌 | 申请(专利权)人: | 湖南通远网络科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健;陈国军 |
地址: | 410000 湖南省长沙市芙蓉区荷*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 论文 抄袭 检测 方法 系统 | ||
本发明提供了一种论文抄袭检测方法及系统。其中,对比库,收录素材;分词库,收录分词及对应词性;分词模块进行分词;分词特征值生成模块生成分词词性特征值;分词自由向量维数确定模块确定分词自由向量维数;分词精简向量维数生成模块,生成分词精简向量维数;分词特征向量生成模块,生成分词特征向量;待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,确定分词自由向量维数;待鉴定文档分词精简向量维数生成模块,生成待鉴定文档分词精简向量维数;待鉴定文档分词特征向量生成模块,生成待鉴定文档分词特征向量;进行相似度比对。
技术领域
本发明属于文本检测领域,尤其涉及一种论文抄袭检测方法及系统。
背景技术
论文抄袭检测是指判断某一篇论文是否涉嫌抄袭其他一篇或多篇文档的文本内容。但由于抄袭并不完全等同于复制,而是有可能通过一定的语义变换、同义词替换或翻译外文文档等多种手段来涉嫌抄袭其他文档的文本内容。
目前,论文抄袭检测技术主要有两种方法:一种是通过指纹识别检测法,一种是通过基于文本里段落词频统计检测法。所谓指纹识别是指从提交的原文文本内容中提取一些称为指纹的数据特征串,根据指纹的相同率来判断某一篇文档是否对其他文档进行了抄袭。所谓段落词频统计检测法是指对提交的文本进行分词,通过统计文本中各个段落的出现频率,设定一个阈值后将待查文本的每个数组与查询文本的每个数组进行比较,最后依据此指标来判断是否进行了抄袭。现有技术中的上述方法存在一定程度的识别率率低、效率不高等问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种论文抄袭检测方法及系统。
其中,所述论文抄袭检测系统包含对比库,用于收录用作对比对象的素材;分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值;分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;分词精简向量维数生成模块,生成分词精简向量维数RWV;分词特征向量生成模块,提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;用户访问方式检测模块,用于提示用户上传待鉴定文档;用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,确定分词自由向量维数WFV_TBI;待鉴定文档分词精简向量维数生成模块,生成待鉴定文档分词精简向量维数RWV_TBI;待鉴定文档分词特征向量生成模块,生成待鉴定文档分词特征向量WVE_RWV_TBI;用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对;当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1示出了根据本发明的一个实施例的论文抄袭检测系统的框图;
图2示出了根据本发明的一个实施例的滑动窗口检测法。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的系统及方法具体实施方式、特征及其功效,详细说明如后。在下述说明中,不同的“一实施方式”或“实施方式”指的不一定是同一实施方式。此外,一或多个实施方式中的特定特征、结构、或特点可由任何合适形式组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南通远网络科技有限公司,未经湖南通远网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610020719.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结合公式编辑的在线富文本编辑系统
- 下一篇:一种字符处理方法和装置