[发明专利]一种关联关系构建方法、装置及电子设备有效
申请号: | 201910920283.4 | 申请日: | 2019-09-26 |
公开(公告)号: | CN110688493B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 胡玉兰 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289;G06F40/247;G16H70/60 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 李娜 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关联 关系 构建 方法 装置 电子设备 | ||
本发明提供了一种关联关系构建方法、装置及电子设备。所述方法包括:获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集;基于所述待分析疾病,获取病理信息文本;从所述病理信息文本中,获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息;基于所述疾病文本信息、所述基因文本信息和所述症状文本信息,构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系。本发明能够建立医学数据之间的统一标准,且增加了医学数据之间的连通性。
技术领域
本发明涉及医学技术领域,特别是涉及一种关联关系构建方法、装置及电子设备。
背景技术
随着生物医学领域数据的大量积累,挖掘数据蕴含的知识或关系是生物医学领域非常重要的子课题。
生物医学知识库所含信息庞大,数据资源信息分布不均衡,没有统一的数据标准,导致数据之间的连通性缺乏,国外通过生物医学本体的构建分析数据结构特征,但每个生物医学本体所含的信息依然缺乏统一的标准。
发明内容
本发明提供一种关联关系构建方法、装置及电子设备,以解决目前医学数据没有统一的标准,导致数据之间缺乏连通性的问题。
为了解决上述问题,本发明实施例公开了一种关联关系构建方法,包括:
获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集;
基于所述待分析疾病,获取病理信息文本;
从所述病理信息文本中,获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息;
基于所述疾病文本信息、所述基因文本信息和所述症状文本信息,构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系。
可选地,所述获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集,包括:
获取所述待分析疾病对应的本体数据和疾病结构化数据;
根据所述本体数据和所述疾病结构化数据,生成所述待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集。
可选地,所述基于所述待分析疾病,获取病理信息文本,包括:
采用多线程爬取技术从指定网站爬取所述待分析疾病对应的病理信息文本。
可选地,所述从所述病理信息文本中,获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息,包括:
对所述病理信息文本进行分词处理,生成多个病理分词文本;
根据所述疾病同义词集、所述基因同义词集和所述症状同义词集,获取相应的疾病检索词、基因检索词和症状检索词;
从所述多个病理分词文本中,获取所述疾病检索词对应的疾病分词文本、所述基因检索词对应的基因分词文本和所述症状检索词对应的症状分词文本;
基于所述疾病分词文本、所述基因分词文本和所述症状分词,分别在所述病理信息文本中所处的位置,确定所述疾病文本信息、所述基因文本信息和所述症状文本信息。
可选地,所述基于所述疾病文本信息、所述基因文本信息和所述症状文本信息,构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系,包括:
根据所述疾病文本信息、所述基因文本信息和所述症状文本信息,构建包含疾病和症状的第一文本特征向量,包含疾病和基因的第二文本特征向量,以及包含症状和基因的第三文本特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910920283.4/2.html,转载请声明来源钻瓜专利网。