[发明专利]生物学数据分析方法和系统有效

申请号：	201410432465.4	申请日：	2014-08-28
公开（公告）号：	CN105468933B	公开（公告）日：	2018-06-15
发明（设计）人：	王莹莹;蔡云鹏	申请（专利权）人：	深圳先进技术研究院
主分类号：	G06F19/10	分类号：	G06F19/10
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	吴平
地址：	518055 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及计算机分析高维度生物学数据的技术领域，特别是涉及一种生物学数据分析方法和系统。本发明的方法包括：接收原始数据，并将原始数据转换为矩阵形式，行代表特征，列代表样本；根据原始数据的技术领域查找背景知识数据；依据所述背景知识数据的数据特点进行分类，构建不同类型的本体论知识库和/或数据集；判断所述本体论知识库和/或数据集的所属类型，根据所述类型选择对应的特征筛选步骤；执行选择的特征筛选步骤，获得预筛选的结果。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选方案。 1
搜索关键词：	生物学数据知识库背景知识特征筛选原始数据数据集预筛选高维接收原始数据计算机分析生物学意义矩阵形式数据特点所属类型分析构建样本查找分类转换统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种生物学数据分析方法，其特征在于，所述方法包括：

接收原始数据，并将原始数据转换为矩阵形式，行代表特征，列代表样本；

根据原始数据的技术领域查找生物学背景知识数据；

依据所述生物学背景知识数据的数据特点进行分类，构建不同类型的本体论知识库和/或数据集，包括：判断所述生物学背景知识数据是否是文本类型，若是，则将所述生物学背景知识数据构建为源自文本型的本体论知识库；若否，则判断所述生物学背景知识数据的内部是否有结构关系，若否，则将所述生物学背景知识数据构建为源自独立背景知识集合的n倍数据集，若是，则判定所述生物学背景知识数据为非独立背景知识的数据集，所述n为背景知识集合中数目超过原始数据特征数的倍数；

判断所述本体论知识库和/或数据集的所属类型，根据所述类型选择对应的特征筛选步骤；

所述源自文本型的本体论知识库对应的特征筛选步骤包括：利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集，选出所有不高于预设第一阈值的节点，选择可富集于所述节点的特征，作为预筛选的结果；

所述源自独立背景知识集合的n倍数据集对应的特征筛选步骤包括：

当n小于或接近1时，将所述矩阵形式中的特征映射到此数据集中，获取预筛选的结果；当n远大于1时，利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集，选出所有不高于预设第二阈值的数据集，选择可富集于所述数据集的特征，作为预筛选的结果；在进行n值判断时，若n与1的差在预设误差范围内时，则n接近1若n与1相加，和的近似值与n相等，则n远大于1；

执行选择的特征筛选步骤，获得预筛选的结果。

2.根据权利要求1所述的生物学数据分析方法，其特征在于，所述特征筛选步骤从以下步骤中择一选择：利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集以获取预筛选结果的步骤，将所述矩阵形式中的特征映射到相应数据集中以获取预筛选结果的步骤，在利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集之后、再利用计算向量相关性的方法计算特征之间的表达相关性以获取预筛选结果的步骤，根据所述矩阵形式中的特征与数据集节点之间的拓扑性质计算节点拓扑度并进行排序以获取预筛选结果的步骤。

3.根据权利要求1所述的生物学数据分析方法，其特征在于，所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括：

若所述生物学背景知识数据的内部有结构关系，则继续判断所述内部结构关系是否有从属性，将所述非独立背景知识的数据集中内部有从属结构关系的生物学背景知识数据构建为源自非文本型的本体论知识库。

4.根据权利要求1所述的生物学数据分析方法，其特征在于，所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括：

若所述生物学背景知识数据的内部有结构关系，则继续判断所述内部结构关系是否有方向性，若是，则将所述生物学背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网，若否，则将所述生物学背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。

5.根据权利要求3所述的生物学数据分析方法，其特征在于，所述源自非文本型的本体论知识库对应的特征筛选步骤包括：

利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集，选出所有不高于预设第三阈值的节点，选择可富集于所述节点的特征，再利用计算向量相关性的方法计算所选择出的特征之间的表达相关性，选出所有满足预设第四阈值的特征，作为预筛选的结果。

6.根据权利要求4所述的生物学数据分析方法，其特征在于，所述源自非独立背景知识集合的有向网或无向网对应的特征筛选步骤包括：将所述矩阵形式中特征与所述有向网或无向网中节点相对应，计算节点的拓扑性质，根据拓扑性质将其排序，设置第五阈值，选择排序靠前且不超过第五阈值的特征，作为预筛选的结果。

7.一种生物学数据分析系统，其特征在于，所述系统包括：

输入模块，用于接收原始数据，并将原始数据转换为矩阵形式，行代表特征，列代表样本；

查找模块，用于根据原始数据的技术领域查找生物学背景知识数据；

分类模块，用于依据所述生物学背景知识数据的数据特点进行分类，构建不同类型的本体论知识库和/或数据集，包括：

文本类型判断单元，用于判断所述生物学背景知识数据是否是文本类型；

源自文本型的本体论知识库构建单元，用于将文本类型的生物学背景知识数据构建为源自文本型的本体论知识库；

内部结构关系判断单元，用于判断所述生物学背景知识数据的内部是否有结构关系，用于将内部有结构关系的生物学背景知识数据判定为非独立背景知识的数据集；

源自独立背景知识集合的n倍数据集构建单元，用于将内部没有结构关系的生物学背景知识数据构建为源自独立背景知识集合的n倍数据集；

特征预筛选模块，用于判断所述本体论知识库和/或数据集的所属类型，根据所述类型选择对应的特征筛选步骤，并执行选择的特征筛选步骤，获得预筛选的结果，包括：

第一单元，用于针对源自文本型的本体论知识库，利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集，选出所有不高于预设第一阈值的节点，选择可富集于所述节点的特征作为预筛选的结果的步骤；

第二单元，用于针对源自独立背景知识集合的n倍数据集，当n小于或接近1时，执行将所述矩阵形式中特征的特征映射到此数据集中，获取预筛选的结果的步骤；及

第三单元，用于针对源自独立背景知识集合的n倍数据集，当n远大于1时，执行利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集，选出所有不高于预设第二阈值的数据集，选择可富集于所述数据集的特征，作为预筛选的结果的步骤；在进行n值判断时，若n与1的差在预设误差范围内时，则n接近1若n与1相加，和的近似值与n相等，则n远大于1。

8.根据权利要求7所述的生物学数据分析系统，其特征在于，所述分类模块包括：

从属性判断单元，用于判断所述内部结构关系是否有从属性；

源自非文本型的本体论知识库构建单元，用于将所述非独立背景知识的数据集中内部有从属结构关系的生物学背景知识数据构建为源自非文本型的本体论知识库；

方向性判断单元，用于判断所述内部结构关系是否有方向性；

源自非独立背景知识集合的有向网构建单元，用于将所述生物学背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网；及

源自非独立背景知识集合的无向网构建单元，用于将所述生物学背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。

9.根据权利要求7所述的生物学数据分析

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院，未经深圳先进技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410432465.4/，转载请声明来源钻瓜专利网。