[发明专利]一种自动检测学术不端文献的方法及系统有效
申请号: | 201010168294.0 | 申请日: | 2010-05-11 |
公开(公告)号: | CN101833579A | 公开(公告)日: | 2010-09-15 |
发明(设计)人: | 张振海;孙雄勇 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京捷诚信通专利事务所 11221 | 代理人: | 魏殿绅 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动检测 学术 不端 文献 方法 系统 | ||
技术领域
本发明涉及智能信息处理和计算机技术领域,尤其涉及一种自动检测学术不端文献及文献内表格数据的方法及系统。
背景技术
随着网络的快速发展和迅速普及,目前在互联网上发布的电子文本成为当前知识产权保护的一个重点。由于电子文本易于复制和下载,已成为许多人研究、引用的对象,一些电子文本被大版面的复制而被认为抄袭的案例时有发生。而目前网络上的电子文本保护措施主要通过阻止和检测法。
目前,也出现了电子文本内容剽窃的方法,如专利申请号为“200810232309.8一种检测及定位电子文本内容剽窃的方法”与专利申请号为“03134562.X一种利用计算机程序检测电子文本剽窃的方法”该现有专利主要是通过向计算机系统提交被检测文本,提取特征模块生成项序列,然后从项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表;最后计算文本的雷同度,判断被检测文本中是否含有剽窃的内容。上述检测过程只是单层特征的检测,不能针对文献内的表格创建特征;其匹配也不是一篇文献针对多篇文献同时进行匹配,只是一篇针对一篇,两篇文献之间的匹配(如图1所示)浪费了匹配的时间;而且对内容也只是检测抄袭的过程。
发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种不仅支持一篇文献针对多篇文献间的一次性匹配,而且还可检测文献内表格数据、判断不端文献抄袭、篡改、一稿多投类型的自动检测学术不端文献的方法及系统。所述技术方案如下:
一种自动检测学术不端文献的方法,包括:
将待检测文献的层级内容及文献内表格数据创建特征;
对所存有的文献层级内容及文献内的表格数据创建特征;
将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;
判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。
一种自动检测学术不端文献的系统,包括:
待检测文献特征区,用于对接收到的待检测文献的层级内容及文献内表格数据创建特征;
待检测文献比对资源区,用于对所存有的文献层级内容及文献内的表格数据创建特征;
分层特征匹配区,用于接收待检测文献特征区创建的文献的层级内容特征及文献内的表格数据特征,并将所述待检测文献的层级内容特征和文献内的表格数据特征与待测文献比对资源区所存有的文献的层级内容特征及文献内的表格特征进行匹配;
不端学术文献及类型判定区,用于判断待检测文献中是否含有学术不端内容、不端表格数据及不端学术内容的类型。
本发明提供的技术方案的有益效果是:
通过分层多阶特征结构,不仅可以对超长文献进行快速检测,而且,也满足了文献最小特征粒度短句的检测,提高了检准率和检全率;而且该发明还支持文献内表格数据特征的创建及匹配全部文献的一次性匹配。
附图说明
图1是现有技术文本内容匹配方法结构图;
图2是检测学术不端文献方法流程图;
图3是学术不端文献匹配方法结构图;
图4是文献多层特征生成方法结构图;
图5是文献内表格数据特征生成方法结构图;
图6是检测学术不端文献系统结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
实施例1
本实施例提供了一种自动检测学术不端文献的方法如图2所示,该方法包括:
步骤101将待检测文献的层级内容及文献内表格数据创建特征。
步骤102对所存有的文献层级内容及文献内的表格数据创建特征;
上述待检测文献与所存有的文献是指任意文献,对其文献进行分层处理,按照篇章、段落、句子等层级分别创建唯一特征。
步骤103将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010168294.0/2.html,转载请声明来源钻瓜专利网。