[发明专利]生物学数据分析方法和系统有效
申请号: | 201410432465.4 | 申请日: | 2014-08-28 |
公开(公告)号: | CN105468933B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 王莹莹;蔡云鹏 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 吴平 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物学数据 知识库 背景知识 特征筛选 原始数据 数据集 预筛选 高维 接收原始数据 计算机分析 生物学意义 矩阵形式 数据特点 所属类型 分析 构建 样本 查找 分类 转换 统计 | ||
本发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。本发明的方法包括:接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;根据原始数据的技术领域查找背景知识数据;依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;执行选择的特征筛选步骤,获得预筛选的结果。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选方案。
技术领域
本发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。
背景技术
随着生物学高通量检测技术的飞速发展,目前可一次性同时检测几万个分子的表达值。但由于受到资金等情况的限制,往往在实验中出现样本数目远远小于被检测的分子数目的情况。以基因芯片为例,人类mRNA芯片可一次性检测3万左右的基因。如何从此类数据中合理的挖掘出具有生物学意义的分子是该领域的重要研究方向之一。常用的方式为利用机器学习领域中的特征选择方法对高维数据进行降维,去除其中的冗余及噪声数据,从而得到原始特征的子集为最终的特征集合。然而,由于生物学数据中往往原始特征数目过于庞大,导致运算时间过长,且通常将特征作为彼此无关的个体,这在一定程度上与生物分子彼此间存在关联的特点相冲突。所以,有必要改进现有技术中存在的无法根据生物学背景知识数据的实际特点而分析实际实验生物学数据的问题。
发明内容
基于此,有必要针对现有技术中存在的无法根据生物学背景知识数据的实际特点而分析实际实验生物学数据的问题,提供一种生物学数据分析方法和系统。
一种生物学数据分析方法,其包括:
接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;
根据原始数据的技术领域查找生物学背景知识数据;
依据所述生物学背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;
判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;
执行选择的特征筛选步骤,获得预筛选的结果。
在其中一个实施例中,所述特征筛选步骤从以下步骤中择一选择:利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集以获取预筛选结果的步骤,将所述矩阵形式中的特征映射到相应数据集中以获取预筛选结果的步骤,在利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集之后、再利用计算向量相关性的方法计算特征之间的表达相关性以获取预筛选结果的步骤,根据所述矩阵形式中的特征与数据集节点之间的拓扑性质计算节点拓扑度并进行排序以获取预筛选结果的步骤。
在其中一个实施例中,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤包括:
判断所述生物学背景知识数据是否是文本类型,若是,则将所述生物学背景知识数据构建为源自文本型的本体论知识库;若否,则判断所述生物学背景知识数据的内部是否有结构关系,若否,则将所述生物学背景知识数据构建为源自独立背景知识集合的n倍数据集,若是,则判定所述生物学背景知识数据为非独立背景知识的数据集,所述n为背景知识集合中数目超过原始数据特征数的倍数。
在其中一个实施例中,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括:
若所述生物学背景知识数据的内部有结构关系,则继续判断所述内部结构关系是否有从属性,将所述非独立背景知识的数据集中内部有从属结构关系的生物学背景知识数据构建为源自非文本型的本体论知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410432465.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用