[发明专利]一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法有效
申请号: | 201810436260.1 | 申请日: | 2018-05-09 |
公开(公告)号: | CN108846257B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 王顺芳;邓琳;房园;郭磊;曹子成 | 申请(专利权)人: | 云南大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06F40/295 |
代理公司: | 云南凌云律师事务所 53207 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法。首先,通过对源文本进行预处理,识别源文本中的蛋白质命名实体。同时,对源文本中的亚细胞位置的关键词进行识别,利用自建的亚细胞位置信息字典在每个文档中进行关键词匹配,进而在文本数据中对亚细胞位置的关键词进行提取。其次,将包含命名实体与位置信息共现的句子进行筛选,得到蛋白质命名实体和亚细胞位置信息共现的句子数据集。然后,将提取出来的特征向量化,构建特征集合。最后使用以叠加式的方法组合单个分类器所构成的集成分类器来构建分类模型,并将该分类模型应用到目标生物医学文本挖掘。 | ||
搜索关键词: | 一种 生物医学 文本 挖掘 蛋白质 细胞 定位 信息 方法 | ||
【主权项】:
1.一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法,其特征在于,该方法包括以下步骤:步骤1:对源文本中的蛋白质命名实体进行识别;步骤1.1:对源文本进行预处理,首先分割短语,然后将所有字母转换为小写字母,将再所有的单词转换根据专家词典(SPECIALIST Lexicon)为原型,利用现有的词性标注工具(Brill‑Tagger)进行词性标注;步骤1.2:利用正则表达式消除源文本中的命名实体边界错误;步骤1.3应用生物医学同义词词典(BioThesaurus)和超级叙词表(Metatesaurus)词典进行匹配,得到词典匹配结果;步骤1.4:将核心词特征、POS词性特征、拼词法特征、词缀特征结合步骤1.3得到的词典特征来构造特征集合,使用条件随机域模型进行训练,得到蛋白质命名实体信息;步骤2:对源文本中的亚细胞位置的关键词进行识别,利用字典在每个文档中进行关键词匹配,进而在文本数据中对亚细胞位置的关键词进行提取;步骤2.1:对源文本进行预格式化处理;首先将大段的文本内容划分成句子和单词,单词是原子的、不再可分的,关键词匹配时涉及的每个词组由若干个单词组成;然后是将英文单词的数、时态等语法变形去除,将相同的单词化为一个统一的形式,以免遗漏一些匹配;步骤2.2:通过收集六类物种细胞中的亚细胞位置信息,构建亚细胞位置信息字典;步骤2.3:利用字典在每个文档中进行关键词匹配,进而在文本数据中进行信息提取,得到亚细胞位置关键字信息;步骤3:针对步骤1中的蛋白质命名实体信息和步骤2中的亚细胞位置关键字信息,将包含着这两者的句子进行筛选,得到蛋白质命名实体和亚细胞位置信息共现的句子数据集;步骤4:针对步骤3中得到的数据集,分别提取相应特征构建特征集合;步骤4.1:利用现有的命名实识别工具(ABNER)对步骤3中得到的数据集进行预处理,从而得出数据集的词特征与逻辑特征;步骤4.2:针对步骤4.1中得到的词特征,利用现有的神经网络模型(word2vec)将词特征向量化,得到词特征向量矩阵;步骤4.3:将步骤4.1中得到的词性特征数字化,提取词性序列,计算状态转移矩阵概率,得到状态转移概率矩阵;步骤4.4:将步骤3中得到的数据集利用现有的词性标注工具(Stanford‑postagger)进行词性标注,得到词性特征;步骤4.5:将步骤4.1中的得到的逻辑特征、步骤4.2中的得到的词特征向量及步骤4.3中的得到的状态转移矩阵进行合并,得到特征集合;步骤5:针对步骤4中的特征集合,通过训练多个分类器,最后使用叠加式的方法组合单个分类器的预测结果,构建分类模型;步骤6,将步骤5中构造的分类模型应用到生物医学文本挖掘当中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810436260.1/,转载请声明来源钻瓜专利网。