[发明专利]一种科研机构信息处理方法及装置在审
申请号: | 202210227794.X | 申请日: | 2022-03-10 |
公开(公告)号: | CN114328937A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 王蕾;王茜;方安;胡佳慧;杨雨生;娄培;范云满;姚宽达 | 申请(专利权)人: | 中国医学科学院医学信息研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F16/33;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100020*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科研机构 信息处理 方法 装置 | ||
本申请提供了一种科研机构信息处理方法及装置,从开放资源中获取机构属性信息;将机构属性信息分成多种属性类型存储;获取机构名称信息,包括从开放资源中提取机构名称和从文献题录中获取机构全称;确定机构名称信息对应的机构类别;按机构类别,对机构名称信息进行聚类;按照属性类型,提取聚类结果对应的机构属性信息。本申请实现了文献题录中机构名称与开放资源中机构属性信息的映射,改善了机构名称的规范质量,链接了国内外开放资源,提高了科研机构名称规范库的整体价值。
技术领域
本申请涉及数据处理领域,具体涉及一种科研机构信息处理方法及装置。
背景技术
科技文献(期刊、图书、专利、标准等)中包含的作者(科研人员)、作者机构、出版物(期刊)、资助机构、基金项目等科研实体及实体间的关系,在信息服务中发挥着越来越重要的基础作用;在查找科研机构的相关信息时,还需要了解该科研机构的各项属性信息,如简介信息、地址信息和图片信息等,这就需要将科研机构的属性信息与科研机构实体进行匹配和关联。
目前,对科研大数据的增值丰富化已有一种基于知识图谱本体模型解决科技大数据知识的构建与存储方法,主要采用SPARK等高性能计算技术完成加工工程的数据计算,并采用ES索引进行存储,将丰富化结果存储为索引扩展三元组形式。
上述方法中,由于不同来源中机构名称规范性不足,导致在机构实体与属性关联时出现重复的机构实体,造成了科研机构的属性信息与科研机构实体匹配不够准确的问题,影响到机构名称规范库的质量。
发明内容
有鉴于此,本申请提供了一种科研机构信息处理方法及装置,解决目前科研机构实体与属性信息匹配不够准确的问题。其具体方案如下:
一方面,本申请提供了一种科研机构信息处理方法,包括:
从开放资源中获取机构属性信息;
将所述机构属性信息分成多种属性类型存储;
获取机构名称信息,包括:从所述开放资源中提取机构名称和从文献题录中获取机构全称;
确定所述机构名称信息的机构类别;
根据所述机构类别,对所述机构名称信息分别聚类,得到聚类结果;
根据所述属性类型,提取所述聚类结果对应的所述机构属性信息。
可选的,所述从文献题录中获取机构全称包括:
从文献题录中提取多条机构简称;
根据简称-全称特征库,确定所述机构简称对应的机构全称。
可选的,所述根据简称-全称特征库,确定所述机构简称对应的机构全称包括:
建立基于马尔可夫链的机构名称补充模型,根据简称-全称特征库,计算所述机构的简称与不同全称对应的概率。
可选的,所述确定所述机构名称信息的机构类别包括:
根据TF-IDF算法,确定所述机构名称信息的机构类别,所述机构类别包括医院机构、实验室机构、高校机构和其他机构。
可选的,所述根据所述机构类别,对所述机构名称信息分别聚类包括:
根据所述机构类别,采用改进K-means的方法对机构名称信息分别聚类。
可选的,所述从所述开放资源中获取机构属性信息包括:
获取所述开放资源;
对所述开放资源进行筛选操作,得到经筛选的开放资源,所述筛选操作包括去除非机构数据和非属性信息;
从所述经筛选的开放资源中获取机构属性信息。
可选的,所述方法还包括:
根据元数据标签库,将相同含义的不同元数据标签定义为同一属性类型。
可选的,所述建立基于马尔可夫链的机构名称补充模型具体包括:采用CPU和GPU技术,建立基于马尔可夫链的机构名称补充模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院医学信息研究所,未经中国医学科学院医学信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210227794.X/2.html,转载请声明来源钻瓜专利网。