[发明专利]一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法有效
申请号: | 201410453911.X | 申请日: | 2014-09-09 |
公开(公告)号: | CN104298651B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 李丽双;蒋振超 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/30 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 生物医学 命名 实体 识别 蛋白质 交互 关系 抽取 在线 方法 | ||
技术领域
本发明属于自然语言处理领域,涉及一种对生物医学文本进行高质量的生物医学命名实体识别和蛋白质关系抽取的方法,具体是指基于深度神经网络分类框架的命名实体识别和关系抽取。
背景技术
生物医学命名实体识别(Biomedical Named Entity Recognition,Bio-NER)是指识别文本中具有特定意义的生物医学实体,主要包括蛋白质、DNA、RNA、cell_type、cell_line等。目前使用最广泛的基于机器学习方法的基本过程包括:语料预处理、抽取特征、模型训练、预测。语料预处理步骤包括对生物医学文本的操作,如大小写转换、分词、词干化、去停用词等步骤。运用到的特征主要包括:核心词特征、字典特征、构词特征、词形特征、词缀特征、词性特征、组块特征等。机器学习构建模型的方法主要包括:隐马尔可夫模型(HMM)、支持向量机模型(SVM)、最大熵模型(ME)、最大熵马尔可夫模型(MEMM)、条件随机域模型(CRF)等。
例如,ABNER(http://pages.cs.wisc.edu/~bsettles/abner/)是一个标准的命名实体识别软件工具,其核心基于线性链CRF。为减少人工抽取特征的代价,半监督学习也被引入到机器学习方法中。李彦鹏等(Incorporating Rich Background Knowledge for Gene Named Entity Classification and Recognition,2009,BMC Bioinformatics)从获得的海量未标注数据中提取有用信息,然后将其作为特征去提高监督学习的效果,在BioCreative II中取得F值为89.05%。
蛋白质交互关系抽取(Protein-Protein Interaction Extraction,PPIE)目的是判断两个蛋白质之间是否存在关系。蛋白质关系可以被看成是一个三元组,Relation<Protein1,Protein2,type>,其中Protein1和Protein2表示两个蛋白质实体,type表示关系类型(有关系或者无关系两类)。
基于特征的机器学习方法利用大量的语言特征,如词法、语法、语义等特征来表示关系实例,从而完成抽取任务。Miwa等(A rich feature vector for Protein-Protein Interaction extraction from multiple corpora,2009,Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing,121-130)提出了一种基于丰富特征向量的SVM-CW方法,抽取了词袋特征、最短路径特征和图特征用于学习。该方法能够同时在多个数据集上进行学习,在五个公共语料AIMed,BioInfer,HPRD50,IEPA,LLL上F值分别达到了64.2%,68.3%,74.9%,76.6%,84.1%。基于核函数的方法可以利用依存解析树等结构化信息,Miwa等(Protein–protein interaction extraction by leveraging multiple kernels and parsers,2009,International journal of medical informatics,39-46)通过把不同句法解析器的输出结果结合起来,获得一个多层次的抽取模型,在AIMed,BioInfer,HPRD50,IEPA,LLL上F值分别达到了60.8%,68.1%,70.9%,71.7%,80.1%。基于特征的方法过度依赖于选取的特征,人工对特征干预程度较大,并且忽略了句法等结构特征的作用;而基于核函数的方法计算时间过长,抽取效率较低,而且没有考虑词汇特征。
对于实际的PPIE在线系统,大都采用基于特征的统计机器学习的方法。Kim等(PIE:an online prediction system for protein-protein interactions from text,2008,Nucleic Acids Research,411-415)建立了在线蛋白质交互关系抽取系统PIE,可以让用户以文本输入或上传文件的格式进行访问,系统能识别出文本中的蛋白质名称,并输出蛋白质关系,最后允许用户对系统的分析结果进行评价。该系统借助词汇信息和句法信息,对文档中的蛋白质交互关系对进行打分并显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410453911.X/2.html,转载请声明来源钻瓜专利网。