[发明专利]生物学数据分析方法和系统有效

专利信息
申请号: 201410432465.4 申请日: 2014-08-28
公开(公告)号: CN105468933B 公开(公告)日: 2018-06-15
发明(设计)人: 王莹莹;蔡云鹏 申请(专利权)人: 深圳先进技术研究院
主分类号: G06F19/10 分类号: G06F19/10
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 吴平
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生物学数据 知识库 背景知识 特征筛选 原始数据 数据集 预筛选 高维 接收原始数据 计算机分析 生物学意义 矩阵形式 数据特点 所属类型 分析 构建 样本 查找 分类 转换 统计
【说明书】:

发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。本发明的方法包括:接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;根据原始数据的技术领域查找背景知识数据;依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;执行选择的特征筛选步骤,获得预筛选的结果。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选方案。

技术领域

本发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。

背景技术

随着生物学高通量检测技术的飞速发展,目前可一次性同时检测几万个分子的表达值。但由于受到资金等情况的限制,往往在实验中出现样本数目远远小于被检测的分子数目的情况。以基因芯片为例,人类mRNA芯片可一次性检测3万左右的基因。如何从此类数据中合理的挖掘出具有生物学意义的分子是该领域的重要研究方向之一。常用的方式为利用机器学习领域中的特征选择方法对高维数据进行降维,去除其中的冗余及噪声数据,从而得到原始特征的子集为最终的特征集合。然而,由于生物学数据中往往原始特征数目过于庞大,导致运算时间过长,且通常将特征作为彼此无关的个体,这在一定程度上与生物分子彼此间存在关联的特点相冲突。所以,有必要改进现有技术中存在的无法根据生物学背景知识数据的实际特点而分析实际实验生物学数据的问题。

发明内容

基于此,有必要针对现有技术中存在的无法根据生物学背景知识数据的实际特点而分析实际实验生物学数据的问题,提供一种生物学数据分析方法和系统。

一种生物学数据分析方法,其包括:

接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;

根据原始数据的技术领域查找生物学背景知识数据;

依据所述生物学背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;

判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;

执行选择的特征筛选步骤,获得预筛选的结果。

在其中一个实施例中,所述特征筛选步骤从以下步骤中择一选择:利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集以获取预筛选结果的步骤,将所述矩阵形式中的特征映射到相应数据集中以获取预筛选结果的步骤,在利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集之后、再利用计算向量相关性的方法计算特征之间的表达相关性以获取预筛选结果的步骤,根据所述矩阵形式中的特征与数据集节点之间的拓扑性质计算节点拓扑度并进行排序以获取预筛选结果的步骤。

在其中一个实施例中,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤包括:

判断所述生物学背景知识数据是否是文本类型,若是,则将所述生物学背景知识数据构建为源自文本型的本体论知识库;若否,则判断所述生物学背景知识数据的内部是否有结构关系,若否,则将所述生物学背景知识数据构建为源自独立背景知识集合的n倍数据集,若是,则判定所述生物学背景知识数据为非独立背景知识的数据集,所述n为背景知识集合中数目超过原始数据特征数的倍数。

在其中一个实施例中,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括:

若所述生物学背景知识数据的内部有结构关系,则继续判断所述内部结构关系是否有从属性,将所述非独立背景知识的数据集中内部有从属结构关系的生物学背景知识数据构建为源自非文本型的本体论知识库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410432465.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top