[发明专利]一种基于引用的论文原创性检测方法有效
申请号: | 201810870256.6 | 申请日: | 2018-08-02 |
公开(公告)号: | CN109284485B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 刘刚;王贺飞;杨笑笑 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/205 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 引用 论文 原创 检测 方法 | ||
一种基于引用的论文原创性检测方法,涉及论文检索对比领域。本发明提出了从引文的角度对剽窃行为进行研究,并设计了文本的引用特征来对引文进行分析,将正文与文末的参考文献分割开来,对分割后的参考字符串进行切分,创建书目列表,根据书目作者与出版年份定位引文,并利用解析器进行提取,对于实验文本首先分析其书目列表,若其共享引用书目超过某阈值,则进行下一阶段的分析,对于被筛选出的文档分析其最长公共引用序列,若其值小于某阈值,则将其从实验文本集中淘汰,对于顺利通过前两阶段检测的文本进行引文分析,通过引用块的最大重叠数来衡量文本的剽窃程度。本发明对学术不端检测具有重要意义,有利于学术风气的规范、科研水平的提高。
技术领域
本发明涉及论文检索对比领域,具体涉及一种基于引用的论文原创性检测方法。
背景技术
书目耦合的概念其作为一种主题相似度措施是非常具有实用意义的。若两个文档间至少拥有一个相同的参考书目,则认为这两个文档是书目耦合的。以共享引用的数量来表征耦合强度。
书目耦合方法是基于作者在选择参考书目时所确定的早期文献来表征文件间的关系。这种关系对于耦合文件而言是静态的和内在的,因为其仅仅取决于各自的引用作品,并不随着时间的推移而改变。
一些研究人员质疑书目耦合作为一种相似性衡量标准的有效性。书目耦合只能表征文件间存在相关关系的概率,具有不确定的价值。通过分析得出,具有耦合关系,但不存在主题相似的文本占到了整个文本集的15%-19%,否定了书目耦合的有效性。
除此之外还有学者对其提出批判,认为绝对耦合强度不能保证同样的相似单位,这在不同的文本中不具有可比性。评论类的文章趋向于拥有更高的耦合强度,因为此类文章中通常包含更多的参考文献。对于这个问题,相对书目耦合即共享与非共享引用的部分文件从某种程度上可以对其提供补救,但是无法彻底解决。书目耦合的静态性质在表征概念与思想观念的变化方面是不理想的,这对于映射新兴趋势与研究领域的演变是有害的。
为了解决书目耦合的静态性质问题,提出了共引的概念。若两个文件是通过最近至少一个工作来被联合引用,则认为两个文件是被共同引用的。这两个文件在先前出版物中被共同引用的次数决定了其共引关系的强度和共引集合的得分。
书目耦合的静态链接是由两个文件所共享的。尽管文件在出版之后其书目耦合强度就可以被马上确定,但是这个强度并不会随着时间的推移而变化。但是共同引用则反映了随着时间变化的文件间关系的转变,其取决于后继论文引用之前论文的频率。
书目耦合与共同引用在科学研究中收到了学者相当的重视,并被广泛用于许多用途,比如文献检索、研究前分析、映射科学以及衡量科学家的影响和评价文章、期刊的不同性能。
文章引用参考文献的对比是原创性检测最主要的障碍。考虑到对文本文档的处理,参考文献的提取存在着一定的问题,在文本转换后,文献的表述比较差,姓名和标题都会有很多偏差,对于两篇文本的文献对比造成很多不必要的麻烦,使得检测结果与正确结果差别相对较大。目前引文分析主要用于识别语义相关的文档,而不是用于原创性检测用途,因此没有过多的现有工作可以直接借鉴使用,而且几乎所有基于引用的相似性措施均是从全局层面来分析文件间的引用关系。因此需要设计与评价算法来检验基于引文来检测文本原创的合适性。
发明内容
本发明的目的在于解决上述检测结果不准确的问题,提供一种基于引用的论文原创性检测方法。
本发明的目的是这样实现的:
一种基于引用的论文原创性检测方法,包括以下步骤:
(1)语料库处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810870256.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:特征编码方法及装置
- 下一篇:文本相似性度量方法、装置、终端及存储介质