[发明专利]一种利用计算机自动评价科技文献新颖性的方法在审
申请号: | 201510696274.3 | 申请日: | 2015-10-21 |
公开(公告)号: | CN105302793A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 王庆红;韦嵘晖;李广凯;郑金;周育忠;张自锋;乔春庚;刘超;王洪俊;肖诗斌;施水才 | 申请(专利权)人: | 南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心;北京拓尔思信息技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 何传锋 |
地址: | 510080 广东省广州市越*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 计算机 自动 评价 科技 文献 新颖性 方法 | ||
1.一种利用计算机自动评价科技文献新颖性的方法,其特征在于,包括如下步骤:
A、基于文档内容排序的新颖性检测;
B、基于文档语义比对的新颖性检测;
C、基于关键术语的新颖性检测;
D、基于数值指标的新颖性检测;
E、基于步骤A-D分别得到各自的新颖性评分,运用回归模型计算出查新文档的新颖性总分。
2.如权利要求1所述的方法,其特征在于,步骤A中,利用文档所具有的词汇集聚特性,借助语义词典知识源,对文档中词语间的语义链接关系进行定义与考察,提出文档的词汇链形式化表示、词汇链权重计算,计算待查文档和检索库中文档的相关度,根据相关度评价查新文档的新颖度。
3.如权利要求2所述的方法,其特征在于,步骤A具体包括如下步骤:
A1、文档特征表示;
A2、建立基于倒排表的索引库;
A3、查新文档经过特征表示后,与索引库中的数据进行相似性检索;
A4、经过基于内容相关的粗排序后,得到候选的检索结果。
4.如权利要求1所述的方法,其特征在于,步骤B中,根据检索到待查文档的相关度最高的TOPN篇相关文档,采用基于编辑距离的细排序的计算方法,计算查新文档和检索结果的结构化文本块之间的相似度,根据相似度评价查新文档的新颖度。
5.如权利要求4所述的方法,其特征在于,步骤B具体包括如下步骤:
B1、对后台检索库的文献数据进行结构拆分,保存到各个字段中;
B2、对查新文档进行结构拆分,查新文档结构包括:标题、正文、查新点;
B3、对查新文档的文档全文与后台检索库中的文档进行基于内容的粗排序,得到相似度最高的TOPN个结果;
B4、查新文档的各个结构内容分别与后台检索库的对应字段进行基于编辑距离的比对,其中正文字段和查新点需要与所有字段都进行比较,取其中最大值作为相似度;
B5、最后对结果进行加权,得到总的相似度。
6.如权利要求1所述的方法,其特征在于,步骤C中,是从查新文献中提取关键技术术语,采用“早度”指标计算各个关键术语的新颖度,最后得出整个查新文献的新颖度,根据预先设置的阈值判定其新颖性。
7.如权利要求6所述的方法,其特征在于,步骤C具体包括如下步骤:
C1、根据关键术语到索引库中检索,取到所有的检索结果;
C2、取得包含该术语的相关文档总数,以及改术语出现的最早时间;
C3、采用“早度”指标计算各个关键术语的新颖度;
C4、在一组术语早度计算的基础上,得出整个查新文献的新颖度,根据预先设置的阈值判定其新颖性。
8.如权利要求1所述的方法,其特征在于,步骤D中,采用基于数值指标项比对的策略对数值指标类技术特征进行新颖性检测。
9.如权利要求8所述的方法,其特征在于,步骤D具体包括如下步骤:
D1、对查新文档进行数字指标抽取;
D2、查新文档中抽取的指标与相似文档中抽取的指标进行比对;
D3:对所有抽取的指标进行比对后,统计不具备新颖性的指标的总数,根据设定的阈值来判断数值指标的新颖度。
10.如权利要求9所述的方法,其特征在于,步骤D2中的比对方法如下:
D2a、找到两个对比文献中相同或者相似的指标描述,相似指标的判断通过同义词词典进行判断;
D2b、判断两个指标描述的指标单位是否相同,相同则进行比对,不同则不进行比对;
D2c、该指标描述中,如果查新文档中的指标上下限和相似文档中的指标上下限有重合,则表明该指标不具备新颖性;
D2d、保留不具备新颖性的指标描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心;北京拓尔思信息技术股份有限公司,未经南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心;北京拓尔思信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510696274.3/1.html,转载请声明来源钻瓜专利网。