[发明专利]一种科研机构信息处理方法及装置在审
申请号: | 202210227794.X | 申请日: | 2022-03-10 |
公开(公告)号: | CN114328937A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 王蕾;王茜;方安;胡佳慧;杨雨生;娄培;范云满;姚宽达 | 申请(专利权)人: | 中国医学科学院医学信息研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F16/33;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100020*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科研机构 信息处理 方法 装置 | ||
1.一种科研机构信息处理方法,其特征在于,所述方法包括:
从开放资源中获取机构属性信息;
将所述机构属性信息分成多种属性类型存储;
获取机构名称信息,包括:从所述开放资源中提取机构名称和从文献题录中获取机构全称;
确定所述机构名称信息的机构类别;
根据所述机构类别,对所述机构名称信息分别聚类,得到聚类结果;
根据所述属性类型,提取所述聚类结果对应的所述机构属性信息。
2.根据权利要求1所述的方法,其特征在于,所述从文献题录中获取机构全称包括:
从文献题录中提取多条机构简称;
根据简称-全称特征库,确定所述机构简称对应的机构全称。
3.根据权利要求2所述的方法,其特征在于,所述根据简称-全称特征库,确定所述机构简称对应的机构全称包括:
建立基于马尔可夫链的机构名称补充模型,根据简称-全称特征库,计算所述机构的简称与不同全称对应的概率。
4.根据权利要求1所述的方法,其特征在于,所述确定所述机构名称信息的机构类别包括:
根据TF-IDF算法,确定所述机构名称信息的机构类别,所述机构类别包括医院机构、实验室机构、高校机构和其他机构。
5.根据权利要求1所述的方法,其特征在于,所述根据所述机构类别,对所述机构名称信息分别聚类包括:
根据所述机构类别,采用改进K-means的方法对机构名称信息分别聚类。
6.根据权利要求1所述的方法,其特征在于,所述从所述开放资源中获取机构属性信息包括:
获取所述开放资源;
对所述开放资源进行筛选操作,得到经筛选的开放资源,所述筛选操作包括去除非机构数据和非属性信息;
从所述经筛选的开放资源中获取机构属性信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据元数据标签库,将相同含义的不同元数据标签定义为同一属性类型。
8.根据权利要求3所述的方法,其特征在于,所述建立基于马尔可夫链的机构名称补充模型具体包括:采用CPU和GPU技术,建立基于马尔可夫链的机构名称补充模型。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每隔一定时间,从所述开放资源中重新获取机构属性信息;对比所述重新获取的机构属性信息与所述聚类结果对应的机构属性信息;当所述对比结果不同时,更新所述聚类结果对应的机构属性信息。
10.一种科研机构信息处理装置,其特征在于,所述装置包括:
机构属性信息获取单元,用于从开放资源中获取机构属性信息;
属性信息分类存储单元,用于将所述机构属性信息分成多种属性类型存储;
机构名称获取单元,用于获取机构名称信息,包括:从所述开放资源中提取得到机构名称和从文献题录中获取机构全称;
机构类别确定单元,用于确定所述机构名称信息的机构类别;
名称聚类单元,用于根据所述机构类别,对所述机构名称信息分别聚类,得到聚类结果;
属性信息提取单元,用于根据所述属性类型,提取所述聚类结果对应的机构属性信息。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
属性信息更新单元,用于每隔一定时间,从所述开放资源中重新获取机构属性信息;对比所述重新获取的机构属性信息与所述聚类结果对应的机构属性信息;当所述对比结果不同时,更新所述聚类结果对应的机构属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院医学信息研究所,未经中国医学科学院医学信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210227794.X/1.html,转载请声明来源钻瓜专利网。