[发明专利]一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法有效

专利信息
申请号: 201810436260.1 申请日: 2018-05-09
公开(公告)号: CN108846257B 公开(公告)日: 2021-08-24
发明(设计)人: 王顺芳;邓琳;房园;郭磊;曹子成 申请(专利权)人: 云南大学
主分类号: G16B40/00 分类号: G16B40/00;G06F40/295
代理公司: 云南凌云律师事务所 53207 代理人: 董建国
地址: 650091*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 生物医学 文本 挖掘 蛋白质 细胞 定位 信息 方法
【权利要求书】:

1.一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法,其特征在于,该方法包括以下步骤:

步骤1:对源文本中的蛋白质命名实体进行识别;

步骤1.1:对源文本进行预处理,首先分割短语,然后将所有字母转换为小写字母,将再所有的单词转换根据专家词典SPECIALIST Lexicon为原型,利用现有的词性标注工具Brill-Tagger进行词性标注;

步骤1.2:利用正则表达式消除源文本中的命名实体边界错误;

步骤1.3应用生物医学同义词词典BioThesaurus和超级叙词表Metathesaurus词典进行匹配,得到词典匹配结果;

步骤1.4:将核心词特征、POS词性特征、拼词法特征、词缀特征结合步骤1.3得到的词典特征来构造特征集合,使用条件随机域模型进行训练,得到蛋白质命名实体信息;

步骤2:对源文本中的亚细胞位置的关键词进行识别,利用字典在每个文档中进行关键词匹配,进而在文本数据中对亚细胞位置的关键词进行提取;

步骤2.1:对源文本进行预格式化处理; 首先将大段的文本内容划分成句子和单词,单词是原子的、不再可分的,关键词匹配时涉及的每个词组由若干个单词组成; 然后是将英文单词的数、时态语法变形去除,将相同的单词化为一个统一的形式,以免遗漏一些匹配;

步骤2.2:通过收集六类物种细胞中的亚细胞位置信息,构建亚细胞位置信息字典;

步骤2.3:利用字典在每个文档中进行关键词匹配,进而在文本数据中进行信息提取,得到亚细胞位置关键字信息;

步骤3:针对步骤1中的蛋白质命名实体信息和步骤2中的亚细胞位置关键字信息,将包含着这两者的句子进行筛选,得到蛋白质命名实体和亚细胞位置信息共现的句子数据集;

步骤4:针对步骤3中得到的数据集,分别提取相应特征构建特征集合;

步骤4.1:利用现有的命名实体识别工具ABNER对步骤3中得到的数据集进行预处理,从而得出数据集的词特征与逻辑特征;

步骤4.2:针对步骤4.1中得到的词特征,利用现有的神经网络模型word2vec将词特征向量化,得到词特征向量矩阵;

步骤4.3:将步骤4.1中得到的词性特征数字化,提取词性序列,计算状态转移矩阵概率,得到状态转移概率矩阵;

步骤4.4:将步骤3中得到的数据集利用现有的词性标注工具Stanford-postagger进行词性标注,得到词性特征;

步骤4.5:将步骤4.1中的得到的逻辑特征、步骤4.2中的得到的词特征向量及步骤4.3中的得到的状态转移矩阵进行合并,得到特征集合;

步骤5:针对步骤4中的特征集合,通过训练多个分类器,最后使用叠加式的方法组合单个分类器的预测结果,构建分类模型;

步骤6,将步骤5中构造的分类模型应用到生物医学文本挖掘当中。

2.根据权利要求1所述的方法,其中所述的源文本是由一个或多个句末带有终结符号构成的英文文本,文本包含蛋白质亚细胞定位信息且符合语法规则,其中终结符号包括句号、逗号、问号、感叹号和分号,且该文本经过专家注释,规模较小。

3.根据权利要求1所述的方法,其中所述的蛋白质命名实体是指蛋白质名称。

4.根据权利要求1所述的方法,其中所述的逻辑特征包括了蛋白质命名实体与亚细胞位置信息间的单词数、动词及标点符号数。

5.根据权利要求1所述的方法,其中所述的神经网络模型word2vec指的是现有的一款将词表征为实数值向量的高效工具。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810436260.1/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top