[发明专利]一种基于引用的论文原创性检测方法有效
申请号: | 201810870256.6 | 申请日: | 2018-08-02 |
公开(公告)号: | CN109284485B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 刘刚;王贺飞;杨笑笑 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/205 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 引用 论文 原创 检测 方法 | ||
1.一种基于引用的论文原创性检测方法,其特征在于,包括以下步骤:
(1)语料库处理;
(2)参考书目分割与提取;
(3)引文识别与提取,根据书目作者与出版年份定位引文,并利用解析器进行提取;
(4)基于引用特征的剽窃检测,候选文档生成阶段采用的引用特征包括:书目耦合、最长公共引用序列以及引文分块;通过结合以上三种引用特征来判定抄袭,得到最终剽窃结果;
所述语料库处理具体包括:使用web搜索引擎,利用启发式规则,搜索文章并下载;对于已下载的文章,进行格式转换,统一转为UTF-8编码的纯文本格式;对于纯文本,首先检验其是否为一个有效的科学文档,即判断其是否包含参考文献部分,若不包含或者包含不完整引用或错误引用的文件则从实验文档集中除去,对文本进行规范化处理;采用简单的基线方法识别指向同一文章的引用,遍历所有参考书目,根据是否引用同一文章分组,然后基于引用长度从最长到最短来排列,对于每一个引用,我们寻找其与之前引用相匹配的最大数量,若这个数字超过一个阈值,则该引用被认为是与之前引用所代表的文章相同,将其与之前的引用归入同一组,否则将其视为新的引用;
所述参考书目分割与提取具体包括:给定一个纯UTF-8文件,借助于一系列启发式来寻找参考书目;先在文本中搜索已被标签化的参考文献部分,标签为“References”、“Bibliography”、“参考文献”或者这些字符串的常见变异,基于这些标签,文本被反复分割;如果一个标签在文档中被过早的发现,则根据一个参数来寻求后续匹配,默认情况下,参数小于整个文本的40%;最后的匹配被认为是参考文献部分的起点;处理程序然后通过搜索后续部分标签来寻找参考文献部分的终点,后续部分标签为附录,图,表,致谢或文件的结尾,从而将正文与文末的参考文献分割开,对分割后的参考文献的参考字符串进行切分,创建书目列表;
所述基于引用特征的剽窃检测具体包括:首先对文本的引用序列进行书目耦合检测,若共享引用书目低于设定的阈值则认为它们不存在抄袭行为,将其从实验文本集中淘汰,否则进行最长公共引用序列检测;若最长公共引用序列检测结果低于设定的阈值,将其从实验文本集中淘汰,否则对文本引文进行分块处理,基于块中的共享引用数目来计算相似度,通过块中共享引用数目来分析文本的剽窃程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810870256.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:特征编码方法及装置
- 下一篇:文本相似性度量方法、装置、终端及存储介质