[发明专利]一种基于引用的论文原创性检测方法有效

专利信息
申请号: 201810870256.6 申请日: 2018-08-02
公开(公告)号: CN109284485B 公开(公告)日: 2023-04-07
发明(设计)人: 刘刚;王贺飞;杨笑笑 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F40/194 分类号: G06F40/194;G06F40/205
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 引用 论文 原创 检测 方法
【权利要求书】:

1.一种基于引用的论文原创性检测方法,其特征在于,包括以下步骤:

(1)语料库处理;

(2)参考书目分割与提取;

(3)引文识别与提取,根据书目作者与出版年份定位引文,并利用解析器进行提取;

(4)基于引用特征的剽窃检测,候选文档生成阶段采用的引用特征包括:书目耦合、最长公共引用序列以及引文分块;通过结合以上三种引用特征来判定抄袭,得到最终剽窃结果;

所述语料库处理具体包括:使用web搜索引擎,利用启发式规则,搜索文章并下载;对于已下载的文章,进行格式转换,统一转为UTF-8编码的纯文本格式;对于纯文本,首先检验其是否为一个有效的科学文档,即判断其是否包含参考文献部分,若不包含或者包含不完整引用或错误引用的文件则从实验文档集中除去,对文本进行规范化处理;采用简单的基线方法识别指向同一文章的引用,遍历所有参考书目,根据是否引用同一文章分组,然后基于引用长度从最长到最短来排列,对于每一个引用,我们寻找其与之前引用相匹配的最大数量,若这个数字超过一个阈值,则该引用被认为是与之前引用所代表的文章相同,将其与之前的引用归入同一组,否则将其视为新的引用;

所述参考书目分割与提取具体包括:给定一个纯UTF-8文件,借助于一系列启发式来寻找参考书目;先在文本中搜索已被标签化的参考文献部分,标签为“References”、“Bibliography”、“参考文献”或者这些字符串的常见变异,基于这些标签,文本被反复分割;如果一个标签在文档中被过早的发现,则根据一个参数来寻求后续匹配,默认情况下,参数小于整个文本的40%;最后的匹配被认为是参考文献部分的起点;处理程序然后通过搜索后续部分标签来寻找参考文献部分的终点,后续部分标签为附录,图,表,致谢或文件的结尾,从而将正文与文末的参考文献分割开,对分割后的参考文献的参考字符串进行切分,创建书目列表;

所述基于引用特征的剽窃检测具体包括:首先对文本的引用序列进行书目耦合检测,若共享引用书目低于设定的阈值则认为它们不存在抄袭行为,将其从实验文本集中淘汰,否则进行最长公共引用序列检测;若最长公共引用序列检测结果低于设定的阈值,将其从实验文本集中淘汰,否则对文本引文进行分块处理,基于块中的共享引用数目来计算相似度,通过块中共享引用数目来分析文本的剽窃程度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810870256.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top