[发明专利]一种自动检测学术不端文献的方法及系统有效
申请号: | 201010168294.0 | 申请日: | 2010-05-11 |
公开(公告)号: | CN101833579A | 公开(公告)日: | 2010-09-15 |
发明(设计)人: | 张振海;孙雄勇 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京捷诚信通专利事务所 11221 | 代理人: | 魏殿绅 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动检测 学术 不端 文献 方法 系统 | ||
1.一种自动检测学术不端文献的方法,其特征在于,待检测文献特征与所存全部文献特征同时进行匹配,所述方法具体包括:
将待检测文献的层级内容及文献内表格数据创建特征;
对所存有的文献层级内容及文献内的表格数据创建特征;
将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;
判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。
2.根据权利要求1所述的自动检测学术不端文献的方法,其特征在于,所述待检测文献层级内容与所存有文献层级内容创建的特征为唯一特征。
3.根据权利要求1所述的自动检测学术不端文献的方法,其特征在于,所述不端学术文献及类型的判断是根据待检测文献与所存文献中的相似阈值、文献时间属性及文献作者属性,其不端内容的类型包括抄袭与剽窃、篡改及一稿多投。
4.根据权利要求1所述的自动检测学术不端文献的方法,其特征在于,所述待测文献与所存有文献特征间的匹配是进行篇章级别的特征匹配、段落级别的特征匹配及句子级别的特征匹配。
5.根据权利要求1所述的自动检测学术不端文献的方法,其特征在于,所述文献内表格数据特征是通过提取表格的属性信息、表格内容的文字处理及表格的行数和列数进行创建。
6.根据权利要求4所述的自动检测学术不端文献的方法,其特征在于,所述
文献全文篇幅的特征创建,是利用关键词词典对全文分词,保留关键词词典中的词,将全部词排序并统计词频,按照词频比例排序,得到次序列表,依据该列表生成文献全文级别的一个特征;
或
按照词拼写排序得到一个词序列表,依据该列表生成文献全文级别的一个特征;
段落特征创建,是利用单元词词典对段落分词,只保留单元词词典中的词,并统计频率,按照词频比例排序,依据该列表生成段落级别的一个特征;
所述句子特征创建,是利用单元词词典对句子分词,只保留单元词词典中的词,利用同义词词典更新该列表中词,针对更新之后的列表按照词形排序,依据排序好的列表生成句子级别的一个特征。
7.一种自动检测学术不端文献的系统,其特征在于,包括:
待检测文献特征区,用于对接收到的待检测文献的层级内容及文献内表格数据创建特征;
待检测文献比对资源区,用于对所存有的文献层级内容及文献内的表格数据创建特征;
分层特征匹配区,用于接收待检测文献特征区创建的文献的层级内容特征及文献内的表格数据特征,并将所述待检测文献的层级内容特征和文献内的表格数据特征与待测文献比对资源区所存有的文献的层级内容特征及文献内的表格特征进行匹配;
不端学术文献及类型判定区,用于判断待检测文献中是否含有学术不端内容、不端表格数据及不端学术内容的类型。
8.根据权利要求7所述的自动检测学术不端文献的系统,其特征在于,所述待检测文献层级内容与所存有文献层级创建的特征为唯一特征。
9.根据权利要求7所述的自动检测学术不端文献的系统,其特征在于,所述不端学术文献及类型判定区的判断是根据待检测文献与所存有文献中的相似阈值、文献时间属性及文献作者属性;所述文献内表格数据特征是通过提取表格的属性信息、表格内容的文字处理及表格的行数和列数进行创建;其不端内容的类型包括抄袭与剽窃、篡改及一稿多投。
10.根据权利要求7所述的自动检测学术不端文献的系统,其特征在于,所述文献层级内容是按照文献篇幅、段落、句子进行划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010168294.0/1.html,转载请声明来源钻瓜专利网。