[发明专利]一种基因关联程度确定方法及装置有效
申请号: | 202011535972.2 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112667772B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 周戬;孔令翔;王今安;贺增泉 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G06F18/214;G16B50/00;G16H50/70 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张建 |
地址: | 518000 广东省深圳市盐田区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 关联 程度 确定 方法 装置 | ||
1.一种基因关联程度确定方法,其特征在于,包括:
确定病例描述文本中的疾病描述词条;
对多个预设关联数据库:分别根据所述疾病描述词条与多个基因中各基因对应的基因标识,在该预设关联数据库中确定目标关联记录的记录数据,将所述记录数据输入至预设词条-基因关联矩阵中,确定所述疾病描述词条分别与所述多个基因中各基因在该预设关联数据库中的关联分数,其中,各预设关联数据库中均保存有所述疾病描述词条与所述多个基因中至少一个基因对应的基因标识的关联记录;
对任一基因:将所述疾病描述词条与该基因对应的基因标识在多个预设信息-基因关联数据库中分别对应的关联分数进行加权处理,获得所述疾病描述词条与该基因的关联值;
根据
确定所述疾病描述词条与该基因的关联程度,其中,L为所述疾病描述词条与该基因的关联程度;e为自然常数;z为所述关联值。
2.根据权利要求1所述的方法,其特征在于,所述分别根据所述疾病描述词条与多个基因中各基因对应的基因标识,在该预设关联数据库中确定目标关联记录的记录数据,包括:
对多个基因中的任一基因:分别确定所述疾病描述词条与该基因对应的基因标识在该预设关联数据库中的目标关联记录的记录数据,所述目标关联记录的记录数据包括:同时包括该基因的基因标识和所述疾病描述词条的关联记录的第一数量、包括所述疾病描述词条的关联记录的第二数量、包括该基因的基因标识的关联记录的第三数量以及该预设关联数据库中的关联记录的总数量。
3.根据权利要求2所述的方法,其特征在于,所述预设词条-基因关联矩阵为:
其中,M为在该预设信息-基因数据库中所述疾病描述词条与该基因对应的基因标识的关联分数;T1为所述第一数量;T2为所述第二数量;T3为所述第三数量;TS为所述总数量。
4.根据权利要求1所述的方法,其特征在于,所述预设词条-基因关联矩阵的训练过程包括:
将作为训练信息的多个疾病描述词条与所述多个基因对应的基因标识在所述多个预设信息-基因关联数据库中的目标关联记录的记录数据输入至当前的词条-基因关联训练矩阵中,确定所述训练信息与所述多个基因在各预设信息-基因数据库下分别对应的预测关联分数;
根据确定的各所述预测关联分数,分别确定所述多个疾病描述词条与所述多个基因的预测关联程度;
确定所述多个疾病描述词条与所述多个基因的真实关联程度与所述预测关联程度的误差;
判断所述误差是否处于预设误差阈值以下,如果是,则确定所述当前的词条-基因关联训练矩阵为所述词条-基因关联矩阵,如果不是,则通过梯度下降算法调整所述当前的词条-基因关联训练矩阵中的矩阵参数,将调整后的词条-基因关联训练矩阵作为当前的词条-基因关联训练矩阵,返回执行所述将作为训练信息的多个疾病描述词条与所述多个基因对应的基因标识在所述多个预设信息-基因关联数据库中的目标关联记录的记录数据输入至当前的词条-基因关联训练矩阵中,确定所述训练信息与所述多个基因在各预设信息-基因数据库下分别对应的预测关联分数的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011535972.2/1.html,转载请声明来源钻瓜专利网。