[发明专利]一种基于双向LSTM和CRF的命名实体识别方法在审
申请号: | 201710874154.7 | 申请日: | 2017-09-25 |
公开(公告)号: | CN107644014A | 公开(公告)日: | 2018-01-30 |
发明(设计)人: | 薛涵凛;顾孙炎 | 申请(专利权)人: | 南京安链数据科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/21;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市雨花台*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双向 lstm crf 命名 实体 识别 方法 | ||
技术领域
本发明涉及一种命名实体识别方法,尤其涉及一种基于双向LSTM和CRF的命名实体识别方法。
背景技术
命名实体识别(Named EntitiesRecognition,NER)是自然语言处理(Natural LanguageProcessing,NLP)的一个基础任务,其目的是识别输入文本中人名、地名、组织机构名等命名实体。
在命名实体识别领域,现有的技术可以分为两类,一类是基于词典和规则的方法,根据词组出现的频率对高频词构建词组词典,对于可以在词典中检索到的词直接将其识别为命名实体;或者根据词组的组成规则,例如机构名称通常包含地点和职能信息等,将满足相应规则的词组直接进行标注。另一种是基于统计学习的方法,相关方法有,条件随机场(CRF),隐马尔可夫模型(HMM),最大熵模型(Maximum Entropy),其中条件随机场近年来广泛运用于命名实体识别领域。
上述基于词典和规则的方法依赖于词典和规则的构造,在处理新词和流行词方面有很大的局限性;上述基于统计模型的方法依赖于人工特征选取,对于特征选取需要大量专业知识和工程经验,同时还需要花费大量人力和时间,已经不能满足人们的要求。
发明内容
本发明的目的在于提供一种基于双向LSTM和CRF的命名实体识别方法,有效解决了实际应用中传统命名实体识别的低效率、低准确率问题。
本发明采用如下技术方案实现:
一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:
步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;
步骤(2):针对步骤(1)中字符特征信息利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;
步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;
步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;
步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;
步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组进行标注,输出得到文本序列中的实体信息,所述条件随机场以步骤(5)中的输出作为输入,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的实体类别标签序列。
进一步的,步骤(1)中,所述对文本预处理指的是采用开源工具对输入文本进行分词并将词组分解成单个字符形式,对文本进行实体标注,得到带标签文本,对字符,单词和标签进行统计和编号,构造字符表,单词表和标签表。
进一步的,步骤(2)和步骤(5)中,所述双向LSTM神经网络包含两个隐含层,一个隐含层表示前向LSTM神经网络,另一个隐含层表示后向LSTM神经网络,利用前向LSTM神经网络提取当前文本信息,利用后向LSTM神经网络提取未来文本信息,通过双向遍历充分提取文本特征信息。
本发明的有益技术效果是:1、提供了一种基于深度学习的命名实体识别方法,首先采用双向LSTM神经网络对字符向量提取特征,将字符向量结合预训练过的词向量作为数据输入到另一个双向LSTM中进一步提取特征。将神经网络的输出作为CRF的输入计算最优标签序列完成识别过程。相比于传统命名实体识别方法,本发明减少了特征提取的工作量,简化了信息处理过程,明显提高识别效率并且减少大量人力成本。2、本发明将字符和词组转化为固定长度向量,相比于传统的one-hot向量,本发明中的字符向量和词向量能够更好挖掘语义关系并且明显降低词组维度,不仅能够减少存储空间而且提高了模型训练效率。3、本发明采用双向LSTM神经网络结合传统CRF,应用场景广泛,能够解决不同领域的命名实体识别问题,拥有很强的模型泛化能力。
附图说明
图1是本发明实施例采用的基于双向LSTM和CRF的命名实体识别的工作流程图。
图2是本发明实施例采用的字向量训练结构示意图。
图3是本发明实施例采用的双向LSTM的网络结构示意图。
图4是本发明实例采用的CRF模型结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京安链数据科技有限公司,未经南京安链数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710874154.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种操作控制方法及终端
- 下一篇:日志文件的查询方法及装置