[发明专利]一种科研机构信息处理方法及装置在审

申请号：	202210227794.X	申请日：	2022-03-10
公开（公告）号：	CN114328937A	公开（公告）日：	2022-04-12
发明（设计）人：	王蕾;王茜;方安;胡佳慧;杨雨生;娄培;范云满;姚宽达	申请（专利权）人：	中国医学科学院医学信息研究所
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/332;G06F16/33;G06K9/62
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100020***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种科研机构信息处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种科研机构信息处理方法及装置，从开放资源中获取机构属性信息；将机构属性信息分成多种属性类型存储；获取机构名称信息，包括从开放资源中提取机构名称和从文献题录中获取机构全称；确定机构名称信息对应的机构类别；按机构类别，对机构名称信息进行聚类；按照属性类型，提取聚类结果对应的机构属性信息。本申请实现了文献题录中机构名称与开放资源中机构属性信息的映射，改善了机构名称的规范质量，链接了国内外开放资源，提高了科研机构名称规范库的整体价值。

技术领域

本申请涉及数据处理领域，具体涉及一种科研机构信息处理方法及装置。

背景技术

科技文献（期刊、图书、专利、标准等）中包含的作者（科研人员）、作者机构、出版物（期刊）、资助机构、基金项目等科研实体及实体间的关系，在信息服务中发挥着越来越重要的基础作用；在查找科研机构的相关信息时，还需要了解该科研机构的各项属性信息，如简介信息、地址信息和图片信息等，这就需要将科研机构的属性信息与科研机构实体进行匹配和关联。

目前，对科研大数据的增值丰富化已有一种基于知识图谱本体模型解决科技大数据知识的构建与存储方法，主要采用SPARK等高性能计算技术完成加工工程的数据计算，并采用ES索引进行存储，将丰富化结果存储为索引扩展三元组形式。

上述方法中，由于不同来源中机构名称规范性不足，导致在机构实体与属性关联时出现重复的机构实体，造成了科研机构的属性信息与科研机构实体匹配不够准确的问题，影响到机构名称规范库的质量。

发明内容

有鉴于此，本申请提供了一种科研机构信息处理方法及装置，解决目前科研机构实体与属性信息匹配不够准确的问题。其具体方案如下：

一方面，本申请提供了一种科研机构信息处理方法，包括：

从开放资源中获取机构属性信息；

将所述机构属性信息分成多种属性类型存储；

获取机构名称信息，包括：从所述开放资源中提取机构名称和从文献题录中获取机构全称；

确定所述机构名称信息的机构类别；

根据所述机构类别，对所述机构名称信息分别聚类，得到聚类结果；

根据所述属性类型，提取所述聚类结果对应的所述机构属性信息。

可选的，所述从文献题录中获取机构全称包括：