[发明专利]一种基于词嵌入与自编码器融合的生物序列特征提取方法在审

专利信息
申请号: 202110747940.7 申请日: 2021-07-01
公开(公告)号: CN113392929A 公开(公告)日: 2021-09-14
发明(设计)人: 杨金;蔡云鹏;肖瑞 申请(专利权)人: 中国科学院深圳先进技术研究院
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 北京市诚辉律师事务所 11430 代理人: 耿慧敏;朱伟军
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 嵌入 编码器 融合 生物 序列 特征 提取 方法
【说明书】:

本发明公开了一种基于词嵌入与自编码器融合的生物序列特征提取方法。该方法包括:构建表示模型和压缩模型,表示模型包含词嵌入网络,压缩模型是自编码器模型,包括编码器和解码器;以设定的总损失函数最小化为优化目标,联合训练表示模型和压缩模型,其中词嵌入网络以短序列Kmer集合作为输入,并通过遮挡部分短序列Kmer,对序列中的Kmer进行上下文关联,学习序列中每个Kmer的嵌入向量,获得组成序列的Kmer对应的嵌入信息;压缩模型的编码器将该嵌入信息转化为低维特征向量,并通过解码器解码重构序列的Kmer嵌入,输出重构向量;利用该重构向量对序列中被遮挡的Kmer进行分类。本发明实现生物序列的高效表征,保证了后续分类的准确性。

技术领域

本发明涉及计算机应用技术领域,更具体地,涉及一种基于词嵌入与自编码器融合的生物序列特征提取方法。

背景技术

随着测序技术的发展,生物序列的数量呈指数级增长,如何对生物序列进行更好的理解和认识成为生物信息学领域的热点。生物序列是一种高维的时序数据,从生物序列中提取关键的特征以表示整条序列是生物信息学领域最重要且基础的任务之一。在传统的生物序列研究方法中,常用方法是序列比对,通过将查询序列与数据库中的现有序列进行比对,获取序列的相似度和注释信息。然而,这种方法速度慢,成本高,并且由于生物序列维度高、注释少、已知物种数量不均衡等特点,很多未知物种及功能的序列无法从参考数据库中得到解释。

近年来,生物信息学领域相关专家学者采用Kmer作为基因特征,通过计算Kmer的频率信息以及Kmer的One-hot编码,来将其作为序列的特征向量。然而,这些方法仅利用了生物序列的组成信息,忽略了序列碱基之间的位置依赖关系。不同顺序的碱基在生物学意义上具有不同的表达,对于生物的进化、基因的表达等具有重要的生物学意义。现有方法损失了生物序列中大量的位置信息,忽略了碱基之间的位置关系所蕴含的生物学意义,无法全面地表示生物序列。

此外,深度学习由于其强大的特征提取能力,在计算机视觉,自然语言处理领域得到广泛应用,在生物信息学领域也得到了相关研究学者的关注。例如,卷积神经网络,循环神经网络等网络模型已开始应用于生物信息领域。这些方法首先会将序列转化为计算机可计算的数值向量或矩阵,再通过标记数据的监督训练,学习序列的特征表示,进而应用于后续分析。但这些方法需要标记数据的监督指导神经网络学习,然而,许多类型的生物序列缺乏标注数据,且标注成本高,而如果采用少量的标记数据难以保证这些模型的泛化性能。

在现有技术方案中,专利申请CN106529212A(基于序列依赖频率矩阵的生物序列进化信息提取方法)采用多序列比对的方法提取生物序列中的进化信息。专利申请号CN106845149A(一种基于基因本体信息的蛋白质序列表示方法)将蛋白质序列与参考数据库进行比对,获取相似度,再根据相似度高的蛋白质序列对查询的蛋白质序列进行表示。这些方法通过比对获取序列依赖频率矩阵,并不适用于参考序列少的生物序列。专利申请CN107292124A(基于分层主元深度学习的宏基因组操作分类单元识别方法)用6mer频率作为特征向量,并对其进行主元分析,实现降维目的,根据降维结果建立神经网络分类模型,从而获取基因序列的物种类别。这种基于6mer频率信息作为深度学习模型输入的方法,仅仅利用了生物序列的组成信息,忽略了碱基之间的位置依赖关系。

发明内容

本发明的目的是克服上述现有技术的缺陷,提供一种基于词嵌入与自编码器融合的生物序列特征提取方法。

根据本发明的第一方面,提供一种基于词嵌入与自编码器融合的生物序列特征提取方法。该方法包括以下步骤:

构建表示模型和压缩模型,其中表示模型包含词嵌入网络,压缩模型是自编码器模型,包括编码器和解码器;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110747940.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top