[发明专利]一种企业科研成果管理方法及管理平台、设备、存储介质有效

专利信息
申请号: 202111010269.4 申请日: 2021-08-31
公开(公告)号: CN113448918B 公开(公告)日: 2021-11-12
发明(设计)人: 许宁;邓洋;黄文杰 申请(专利权)人: 中国建筑第五工程局有限公司
主分类号: G06F16/11 分类号: G06F16/11;G06F40/154;G06F40/194;G06F40/284;G06F16/951;G06F16/31;G06F16/332
代理公司: 长沙智嵘专利代理事务所(普通合伙) 43211 代理人: 颜汉华
地址: 410007 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 企业 科研成果 管理 方法 平台 设备 存储 介质
【权利要求书】:

1.一种企业科研成果管理方法,其特征在于,包括以下内容:

导入企业科研成果文件,文件格式为PDF文档;

存储导入的PDF文档,并对PDF文档进行结构化处理以提取出文档内容和文档逻辑结构,并基于提取的文档内容生成标准化的XML文件,从文档内容中提取出题录字段的信息并将其对应存储至数据库中的题录字段存储位置,文档内容中的各题录字段内容对应不同的xml节点,且每个xml节点分别与数据库的题录字段存储位置进行锚点匹配;

从生成的XML文件中自动提取出关键词,并将提取出的关键词存储至数据库的关键词存储位置;

将两个PDF文档中提取的关键词分别转换为两个特征向量,并基于两个特征向量计算两个PDF文档的相似度,对相似度计算结果大于阈值的两个PDF文档进行关联;

从PDF文档中提取文档内容并生成标准化的XML文件的过程具体包括以下内容:

采用OCR技术从PDF文档中识别出每个字符,并将每个字符的识别结果表示为一个字符区块,每个字符区块的内容包括字符的位置信息、字符的格式信息以及字符本身,若干个字符区块组成一个XML数据集合;

基于字符的位置信息对若干个字符区块进行组合,得到多个字符区块组合;

采用预设的分词模型从每个字符区块组合中提取词组,生成词组区块,所述词组区块包括至少两个字符区块;

根据所述词组区块内第一个字符区块和最后一个字符区块的位置信息得到所述词组区块的位置信息;

对词组区块进行校验处理,生成标准化的XML文件;

从XML文件中自动提取关键词的过程包括以下内容:

根据文档逻辑结构确定PDF文档包括的段落数量和每个段落的编号、位置范围,基于每个词组区块的位置信息和每个段落的编号、位置范围确定所述词组区块在PDF文档中的段落编号;

基于所处段落中包含的标点符号字符区块的位置信息得到该段落中包含的语句数量和每个语句的编号、位置范围,基于每个词组区块的位置信息和每个语句的编号、位置范围确定所述词组区块在该段落中的语句编号;

统计每个词组区块的出现次数,且基于词组区块每次出现所在的段落编号和语句编号计算位置权重,对多次计算得到的位置权重进行求和得到每个词组区块的总位置权重;

按照总位置权重从高到低的顺序对多个词组区块进行依次排列,筛选出前N个词组区块,并将其作为关键词输出。

2.如权利要求1所述的企业科研成果管理方法,其特征在于,所述将两个PDF文档中提取的关键词分别转换为两个特征向量,并基于两个特征向量计算两个PDF文档的相似度,对相似度计算结果大于阈值的两个PDF文档进行关联的过程具体包括以下内容:

采用训练好的Word2vec模型将两个PDF文档中提取出来的关键词分别转换为两个词向量;

采用余弦距离计算公式计算两个词向量之间的相似度,当计算出来的余弦距离大于阈值时,对两个PDF文档进行自动关联。

3.如权利要求1所述的企业科研成果管理方法,其特征在于,所述方法还包括以下内容:

采用网络爬虫技术从互联网上抓取网页资讯信息,自动提取网页正文内容,对提取的网页内容进行清洗、去躁后导入数据库。

4.如权利要求1所述的企业科研成果管理方法,其特征在于,所述方法还包括以下内容:

对数据库中存储的企业科研成果文件进行加密。

5.如权利要求1所述的企业科研成果管理方法,其特征在于,所述方法还包括以下内容:

在数据库中进行企业科研成果文件检索。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建筑第五工程局有限公司,未经中国建筑第五工程局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111010269.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top