[发明专利]一种利用计算机自动评价科技文献新颖性的方法在审
申请号: | 201510696274.3 | 申请日: | 2015-10-21 |
公开(公告)号: | CN105302793A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 王庆红;韦嵘晖;李广凯;郑金;周育忠;张自锋;乔春庚;刘超;王洪俊;肖诗斌;施水才 | 申请(专利权)人: | 南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心;北京拓尔思信息技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 何传锋 |
地址: | 510080 广东省广州市越*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 计算机 自动 评价 科技 文献 新颖性 方法 | ||
技术领域
本发明属于科技查新技术领域,具体涉及一种利用计算机自动评价科技文献新颖性的方法。
背景技术
随着我国国家创新体系的建设和自主创新能力规划的实施,国家大力推动各个重大领域的技术创新,我国的科技项目立项数量、重大科研成果的报奖数量都在飞速增长。在科技创新的过程中,如何能够准确选择科研方向,正确立项,避免重复立项和无效的科研投入,少走弯路,同时在科技报奖的过程中,准确提炼科技创新点,提升科技成果的价值,都是目前科研机构急待解决的关键问题。有研究表明,我国在进行中的科研课题至少40%是重复其他国家已经研究成功的课题。
科技查新是为了避免科研项目的重复立项、客观评价科研项目和科技成果的新颖性,通过各种检索手段、检索工具进行文献调查研究,并运用综合分析对比等方法,对科研立项、成果鉴定、申报奖项等项目的新颖性提供文献依据,写出有依据、有分析对比结论的报告的科技管理手段。作为科研立项、科技成果报奖等科研工作的有效支持,科技查新工作在科技与经济发展中的作用越来越显著,已成为国家创新体系的重要组成部分。
目前,我国科技查新很大程度上依赖人工操作,如果能实现自动科技查新,将能很大程度上提升查新效率。现有的自动查新技术体现在自动新颖性检测、新颖性评价等方面,其目的在于采用计算机技术,自动检测出具备新颖性的文档。国内外很多研究机构都在研究新颖性检测相关的技术,尤其在科技论文抄袭检测、互联网版权保护、网页查重、专利新颖性检测等领域,已经出现了大量的研究成果。现有技术主要是对文本内容的相似度检测,检测方法单一。本发明在国内首次开发基于多维智能比对的自助查新系统,可自动检测不具创新性的申请,有利于科技项目确定正确的研究方向,提升报奖成功率,有效降低人工负担并提升查新报告的质量和公正性。
发明内容
针对现有技术的问题,本发明的目的是提供一种利用计算机自动评价科技文献新颖性的方法,其能够自动处理用户的查新文档,自动生成查新报告,提高科技查新的效率。
为了实现上述目的,本发明提供了一种利用计算机自动评价科技文献新颖性的方法,其特征在于,包括如下步骤:
A、基于文档内容排序的新颖性检测;
B、基于文档语义比对的新颖性检测;
C、基于关键术语的新颖性检测;
D、基于数值指标的新颖性检测;
E、基于步骤A-D分别得到各自的新颖性评分,运用回归模型计算出查新文档的新颖性总分。
基于文档内容排序的新颖性检测,是利用文档所具有的词汇集聚特性,借助语义辞典等知识源,对文档中词语间的语义链接关系进行定义与考察,并以之为基础提出文档的词汇链形式化表示、词汇链权重计算,采用了一种基于内容相关度的检索排序方式,从库中检索与用户输入内容最相关的文本。
基于文档语义比对的新颖性检测,采用基于内容的相关文档检索技术,检索到查新文献的相关文档。通过结构化比对查新文献与对比文献的之间的相关度,如果二者具有较高的相似性或关联性,则可以判定查新文献不具备新颖性。
基于关键术语的新颖性检测,采用类似于IBMCOA的机制,首先从查新文献中提取关键技术术语。采用“早度”等指标计算各个关键术语的新颖度,最后得出整个查新文献的新颖度,根据预先设置的阈值判定其新颖性。
基于数值指标的新颖性检测,采用一种基于数值指标项比对的策略对数值指标类技术特征进行新颖性检测。若科技文献中存在以数值或连续变化的数值范围限定的技术特征,例如温度、压力、组分含量等,而其余技术特征与对比文件相同,如果对比文件中公开了该限定数值范围内的数值,包括端点的数值,则该要求保护的技术方案不具备新颖性。
根据本发明另一具体实施方式,步骤A中,利用文档所具有的词汇集聚特性,借助语义词典知识源,对文档中词语间的语义链接关系进行定义与考察,提出文档的词汇链形式化表示、词汇链权重计算,计算待查文档和检索库中文档的相关度,根据相关度评价查新文档的新颖度。
根据本发明另一具体实施方式,步骤A具体包括如下步骤:
A1、文档特征表示;
A2、建立基于倒排表的索引库;
A3、查新文档经过特征表示后,与索引库中的数据进行相似性检索;
A4、经过基于内容相关的粗排序后,得到候选的检索结果。
根据本发明另一具体实施方式,步骤B中,根据检索到待查文档的相关度最高的TOPN篇相关文档,采用基于编辑距离的细排序的计算方法,计算查新文档和检索结果的结构化文本块之间的相似度,根据相似度评价查新文档的新颖度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心;北京拓尔思信息技术股份有限公司,未经南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心;北京拓尔思信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510696274.3/2.html,转载请声明来源钻瓜专利网。