[发明专利]生物学数据分析方法和系统有效
申请号: | 201410432465.4 | 申请日: | 2014-08-28 |
公开(公告)号: | CN105468933B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 王莹莹;蔡云鹏 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 吴平 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。本发明的方法包括:接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;根据原始数据的技术领域查找背景知识数据;依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;执行选择的特征筛选步骤,获得预筛选的结果。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选方案。 1 | ||
搜索关键词: | 生物学数据 知识库 背景知识 特征筛选 原始数据 数据集 预筛选 高维 接收原始数据 计算机分析 生物学意义 矩阵形式 数据特点 所属类型 分析 构建 样本 查找 分类 转换 统计 | ||
接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;
根据原始数据的技术领域查找生物学背景知识数据;
依据所述生物学背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集,包括:判断所述生物学背景知识数据是否是文本类型,若是,则将所述生物学背景知识数据构建为源自文本型的本体论知识库;若否,则判断所述生物学背景知识数据的内部是否有结构关系,若否,则将所述生物学背景知识数据构建为源自独立背景知识集合的n倍数据集,若是,则判定所述生物学背景知识数据为非独立背景知识的数据集,所述n为背景知识集合中数目超过原始数据特征数的倍数;
判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;
所述源自文本型的本体论知识库对应的特征筛选步骤包括:利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征,作为预筛选的结果;
所述源自独立背景知识集合的n倍数据集对应的特征筛选步骤包括:
当n小于或接近1时,将所述矩阵形式中的特征映射到此数据集中,获取预筛选的结果;当n远大于1时,利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集,选出所有不高于预设第二阈值的数据集,选择可富集于所述数据集的特征,作为预筛选的结果;在进行n值判断时,若n与1的差在预设误差范围内时,则n接近1若n与1相加,和的近似值与n相等,则n远大于1;
执行选择的特征筛选步骤,获得预筛选的结果。
2.根据权利要求1所述的生物学数据分析方法,其特征在于,所述特征筛选步骤从以下步骤中择一选择:利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集以获取预筛选结果的步骤,将所述矩阵形式中的特征映射到相应数据集中以获取预筛选结果的步骤,在利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集之后、再利用计算向量相关性的方法计算特征之间的表达相关性以获取预筛选结果的步骤,根据所述矩阵形式中的特征与数据集节点之间的拓扑性质计算节点拓扑度并进行排序以获取预筛选结果的步骤。3.根据权利要求1所述的生物学数据分析方法,其特征在于,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括:若所述生物学背景知识数据的内部有结构关系,则继续判断所述内部结构关系是否有从属性,将所述非独立背景知识的数据集中内部有从属结构关系的生物学背景知识数据构建为源自非文本型的本体论知识库。
4.根据权利要求1所述的生物学数据分析方法,其特征在于,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括:若所述生物学背景知识数据的内部有结构关系,则继续判断所述内部结构关系是否有方向性,若是,则将所述生物学背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网,若否,则将所述生物学背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。
5.根据权利要求3所述的生物学数据分析方法,其特征在于,所述源自非文本型的本体论知识库对应的特征筛选步骤包括:利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第三阈值的节点,选择可富集于所述节点的特征,再利用计算向量相关性的方法计算所选择出的特征之间的表达相关性,选出所有满足预设第四阈值的特征,作为预筛选的结果。
6.根据权利要求4所述的生物学数据分析方法,其特征在于,所述源自非独立背景知识集合的有向网或无向网对应的特征筛选步骤包括:将所述矩阵形式中特征与所述有向网或无向网中节点相对应,计算节点的拓扑性质,根据拓扑性质将其排序,设置第五阈值,选择排序靠前且不超过第五阈值的特征,作为预筛选的结果。7.一种生物学数据分析系统,其特征在于,所述系统包括:输入模块,用于接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;
查找模块,用于根据原始数据的技术领域查找生物学背景知识数据;
分类模块,用于依据所述生物学背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集,包括:
文本类型判断单元,用于判断所述生物学背景知识数据是否是文本类型;
源自文本型的本体论知识库构建单元,用于将文本类型的生物学背景知识数据构建为源自文本型的本体论知识库;
内部结构关系判断单元,用于判断所述生物学背景知识数据的内部是否有结构关系,用于将内部有结构关系的生物学背景知识数据判定为非独立背景知识的数据集;
源自独立背景知识集合的n倍数据集构建单元,用于将内部没有结构关系的生物学背景知识数据构建为源自独立背景知识集合的n倍数据集;
特征预筛选模块,用于判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤,并执行选择的特征筛选步骤,获得预筛选的结果,包括:
第一单元,用于针对源自文本型的本体论知识库,利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征作为预筛选的结果的步骤;
第二单元,用于针对源自独立背景知识集合的n倍数据集,当n小于或接近1时,执行将所述矩阵形式中特征的特征映射到此数据集中,获取预筛选的结果的步骤;及
第三单元,用于针对源自独立背景知识集合的n倍数据集,当n远大于1时,执行利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集,选出所有不高于预设第二阈值的数据集,选择可富集于所述数据集的特征,作为预筛选的结果的步骤;在进行n值判断时,若n与1的差在预设误差范围内时,则n接近1若n与1相加,和的近似值与n相等,则n远大于1。
8.根据权利要求7所述的生物学数据分析系统,其特征在于,所述分类模块包括:从属性判断单元,用于判断所述内部结构关系是否有从属性;
源自非文本型的本体论知识库构建单元,用于将所述非独立背景知识的数据集中内部有从属结构关系的生物学背景知识数据构建为源自非文本型的本体论知识库;
方向性判断单元,用于判断所述内部结构关系是否有方向性;
源自非独立背景知识集合的有向网构建单元,用于将所述生物学背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网;及
源自非独立背景知识集合的无向网构建单元,用于将所述生物学背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。
9.根据权利要求7所述的生物学数据分析该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410432465.4/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用