[发明专利]基于树状LSTM对生物医学文献的基因事件的抽取方法有效
申请号: | 202010276382.6 | 申请日: | 2020-04-09 |
公开(公告)号: | CN111581339B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 饶国政;孟通福 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/284;G06F40/211;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 吴学颖 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 树状 lstm 生物医学 文献 基因 事件 抽取 方法 | ||
本发明公开了一种基于树状LSTM对生物医学文献的基因事件的抽取方法:训练集、验证集和测试集的文本中出现的单词建立单词词典,实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典,将生物医学文献的摘要数据处理为结构性数据;单词词典中单词映射得到向量,未被匹配的单词随机分配;事件触发词识别使用Tree‑LSTM结构,在事件元素识别中,使用最短依赖路径算法得到触发词和实体之间的最短路径,再使用Tree‑LSTM模型识别事件中事件参数及其扮演的角色;按照触发词识别阶段提供的触发词和原始文本提供的实体信息将事件参数词典转换为文本,生成事件参数信息包括事件类型、事件触发词、事件参数和事件参数类型。
技术领域
本发明涉及互联网人工智能自然语言处理技术领域,更具体的说,是涉及一种基于树状LSTM对生物医学文献的基因事件的抽取方法。
背景技术
生物医学文献作为世界上丰富的科研和问诊数据来源之一,它给我们提供了充足的数据来分析文献中事件的发生及事件要素,如基因和蛋白质之间的因果关系。目前美国国家生物技术信息中心(NCBI)发布的PubMed收录了三千万条生物医学引用,GENIA corpus在其基础上针对领域事件抽取提供了人工标记的数据。因此,在生物信息检索中找到合适的模型适用在广泛的医学文献中提取出指定的事件至关重要。
在深度学习算法出现之前,事件抽取任务通常依赖于人工特征,单词词性或是专家词典,然后经过朴素贝叶斯或者支持向量机这类的分类器,这些传统的机器学习方法在任务相关的特征工程阶段花费了大量的时间和人力。与之不同地,深度学习算法能够通过无监督或者半监督特征学习算法自动的提取数据特征并且使用稠密的向量表示,不同于特征工程得到的稀疏向量表示。为了获得高质量的向量表示,我们需要将非结构化文本映射成可表示性向量的空间。然而,非结构性文本有自身的语言特性,如修辞结构和依赖关系,在构建深度学习模型时提供了不同的思路。
深度学习将文本和句子结构进行向量的表示输入到设计好的模型中,减少了特征的摸索和尝试从而发挥了表示学习的优势。在事件抽取任务中,我们常常使用预训练的词向量来初始化输入的单词或者用少量的标注训练数据在大规模语料库上训练好的模型上进行fine-tuning,如Word2Vec,GloVe和FastText。在英文的文本处理中,我们常常使用工具进行分词分句,词性标注,句法依存解析,如NLTK、StanfordCoreNLP和SpaCy。
发明内容
本发明的目的是为了克服现有技术中的不足,提出一种利用句子结构信息的基于树状LSTM对生物医学文献的基因事件的抽取方法。
本发明的目的是通过以下技术方案实现的。
本发明基于树状LSTM对生物医学文献的基因事件的抽取方法,包括以下过程:
步骤一:数据预处理
生物医学文献的摘要数据使用的是文本格式,使用NLTK进行分句和分词,对句子进行依赖解析,实体和训练集中的触发词使用BILOU的标记规则进行标记,将训练集、验证集和测试集的文本中出现的单词建立单词词典,转化为数字索引,将实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典,将生物医学文献的摘要数据处理为结构性数据:将单句按照单词词典索引进行转换,实体按照实体词典进行编码,触发词按照触发词词典进行编码,将单句的信息按照依存树的结构生成数据结构记录全部信息;事件参数按照发生U和L的实体或者触发词生成相应的三元组;
步骤二:词嵌入
将单词词典中的单词映射到预训练的词模型PubMed-and-PMC-w2v中得到相应的向量,未被匹配的单词使用正太分布概率进行随机的分配,单词词典中每个单词使用200维度的数字进行表示,范围为(-1,1);
步骤三:训练模型识别基因事件
①触发词识别阶段
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010276382.6/2.html,转载请声明来源钻瓜专利网。