[发明专利]基于卷积神经网络的药化实体识别方法及系统在审
申请号: | 201811511754.8 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109815478A | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 张亮仁;杨波;刘振明;胡建星;宗晓琳 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G16H50/70;G16H70/40;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 药化 分类识别 实体词识别 并行计算 仿射变换 全局特征 人工设计 人为设计 实体识别 特征表示 文本内容 解码 词向量 词转换 自动地 省略 降维 卷积 解析 输出 分类 概率 学习 | ||
本发明涉及一种基于卷积神经网络的药化实体词识别方法及系统。该方法包括:(1)将待识别药化实体的文献中的每一个词转换成词向量形式;(2)对每个词进行解析,通过字符级卷积神经网络提取每个词的字符级特征;(3)通过词级扩张卷积神经网络识别文献中的药化实体,包括不同扩张卷积提取全局特征的过程;(4)通过解码层计算词级扩张卷积神经网络的输出的仿射变换,进而计算实体词属于某一分类的概率。本发明充分利用卷积神经网络适用于并行计算的特点实现对药化实体的分类识别,自动从文本内容中学习特征表示,省略了人工设计、降维特征的步骤,能够减少人为设计错误的发生,能够高效、准确、自动地完成对药化实体的分类识别。
技术领域
本发明属于自然语言处理领域,涉及一种信息抽取技术,特别涉及一种药化文献文本挖掘的关键技术。
背景技术
随着生命科学领域高新技术的迅猛发展,药物研究成果不断涌现。科学文献作为成果展示主要方式,包含大量被实验证实的原始知识。借助计算机技术的文献自动采集与整理的方法已成为学科发展的重要组成部分和发展的必然趋势。药化实体是文献中知识单元的载体,包括研究方法、研究理论及领域实体(靶点、药物、疾病等)。实体识别是自然语言处理技术中的重要工作,随着信息出现多样化和复杂化,如何提取最重要信息便成为了一个至关重要的问题。药化实体识别是指从非结构化的相关文献,如学术期刊论文、会议论文、专利等,中识别出药物化学名称并将其划分到预定义的类别中。目前的方法可以分为三类:基于词典的方法、基于规则的方法,基于机器学习的方法。
基于词典的识别方法可以公开在线的药化数据库构造药化名词典,例如DrugBank、KEGG、Pharm GKB等。Rindflesch等人使用生物医学文本映射系统UMLS Meta Map把生物医学文本映射到UMLS Metathesaurus,把映射到“harmacological Substance”类概念的短语当作药化名识别出来。当使用的药化名词典质量不高时,基于词典的药化名识别方法也会取得较低的精度。
基于规则的识别方法,Segura-Bedmar等人利用世界卫生组织推荐的药化非专属名词干列表编制规则识别药化名。他们由每个词干得到一个正则表达式,然后用正则表达式从文本中识别药化名。然而基于药名构成模式编制的规则对不遵循命名规则的药化名识别是无效的。
基于机器学习的识别方法,基于机器学习的识别方法将识别形式化为一个分类问题或者序列标注问题。机器学习模型的选择对识别非常关键。常用于药化名识别的分类模型有最大熵、支持量机等。
现有方法的不足之处:第一,目前由于制药研究的迅速发展,新药不停地被研制出来进入市场,创建并维护一个覆盖范围广泛、更新及时的药化名词典需要花费很高的代价。第二,虽然使用领域专家编制的规则时,基于规则的方法能取得不错的性能,但是编制规则会耗费大量时间与精力。而且太过具体的规则能取得较高的精度但是召回率很低。相反地,太过宽泛的规则召回率很高,但是精度很低。此外,基于规则的方法可移植性很差,针对一类药化名定义的规则很难用于识别其它类型的药化名。第三,基于机器学习的药化名识别方法的缺点在于其需要大规模、高质量的标注语料库用于训练机器学习模型,而构建已标注的语料库却耗时耗力,且需要领域专家参与其中。第四,现有神经网络模型的实体词识别方法多采用循环神经网络与条件随机场结合的方法,但是这些模型没有充分考虑应用GPU并行计算的特点从而限制了方法的应用效率。
发明内容
本发明提出了一种基于卷积神经网络的药化实体词识别方法及系统,能够高效、准确、自动识别文献中药化领域各类实体词。
本发明采用的技术方案如下:
一种基于卷积神经网络的药化实体词识别方法,其步骤包括:
(1)将待识别药化实体的文献中的每一个词与词向量训练算法获得的词向量对应匹配,将文献中的每个词以预训练词向量的形式组成词向量层的内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811511754.8/2.html,转载请声明来源钻瓜专利网。