[发明专利]一种基于GloVe模型的氨基酸全局特征向量表示方法在审

申请号：	201910042979.1	申请日：	2019-01-17
公开（公告）号：	CN109767814A	公开（公告）日：	2019-05-17
发明（设计）人：	陈沾衡;尤著宏;李晓;蒋同海;周喜;袁扬;易海成;陈沾兴;彭新亮	申请（专利权）人：	中国科学院新疆理化技术研究所
主分类号：	G16B30/00	分类号：	G16B30/00;G16B40/00;G06F17/27
代理公司：	乌鲁木齐中科新兴专利事务所(普通合伙) 65106	代理人：	张莉
地址：	830011 新疆维吾尔***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于GloVe模型的氨基酸全局特征向量表示方法，该方法包括：输入GloVe模型中语料库的选择与建立，氨基酸序列粒度切分处理，利用GloVe模型训练得到每个氨基酸的特征向量步骤完成，该方法是利用GloVe词向量生成模型处理每个氨基酸序列并得到特征向量，对氨基酸序列进行特征向量化的表示，方便计算机更好的对数据进行处理，并有助于进一步对蛋白质间的相互作用进行预测，最终所有数据集中的每个蛋白质都能够得到300维的特征向量；该方法计算代价低，功耗小；有效地对氨基酸序列进行数值化的表示，为进一步蛋白质自相互作用预测奠定了坚实的基础。
搜索关键词：	氨基酸序列特征向量氨基酸蛋白质全局特征向量模型训练生成模型数据集中词向量数值化向量化有效地语料库预测功耗计算机
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于GloVe模型的氨基酸全局特征向量表示方法，其特征在于，按下列步骤进行：a、输入GloVe模型中语料库的选择与建立：利用UniProt数据库中的human和yeast两个黄金标准数据集，构建用于输入GloVe模型的语料库，其中human数据集由1441个阳性自相互作用蛋白质和15938个阴性非自相互作用蛋白质组成，yeast数据集由710阳性样本和5511个阴性样本组成；b、氨基酸序列粒度切分处理：将输入GloVe模型语料库中所有蛋白质按照单个氨基酸序列进行粒度切分，切分粒度为1个氨基酸；c、特征向量表示：将步骤b中获得的氨基酸序列粒度切分结果输入到GloVe模型，利用GloVe模型训练词向量，得到human阳性数据集为1441×300，阴性数据集为15938×300，yeast阳性数据集为710×300，阴性数据集为5511×300的最终输出结果为数值化的特征向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所，未经中国科学院新疆理化技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910042979.1/，转载请声明来源钻瓜专利网。

上一篇：测序深度的矫正方法及装置
下一篇：基于速率不确定性下的燃烧反应机理简化的方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于GloVe模型的氨基酸全局特征向量表示方法在审

专利文献下载